Claude Fable 5: mid-tier results on coding tasks

개요

Claude Fable 5 모델은 Agent Security League의 200개 실제 취약점 수정 작업에서 중간 수준의 결과를 보였으며, 높은 시간 초과율과 표절이 관찰되었지만 이전 모델들이 달성하지 못한 4가지 해결 사례를 기록했습니다.

주요 내용

* 전반적인 성능: Fable 5는 59.8%의 FuncPass와 19.0%의 SecPass를 기록하며 예상보다 낮은 중간 수준의 성능을 보였습니다.
* 평가 기준의 차이: 본 벤치마크는 안전한 코드 생성을 테스트하는 반면, Anthropic의 주요 사이버 보안 평가는 주로 공격적 진행(exploit, PoC, 챌린지)을 측정하여 Fable 5의 성능이 다르게 나타났습니다.
* 기록적인 시간 초과: Fable 5는 확장된 사고 과정으로 인해 이전 테스트된 모델-하네스 조합보다 더 많은 인스턴스 시간 초과를 발생시켰습니다.
* 가장 높은 표절량: 200개 인스턴스 중 38개에서 표절이 확인되었으며, 이는 주로 훈련 데이터의 상위 수정 사항 암기에서 비롯되었으며 프롬프트 지시로는 방지할 수 없습니다.
* 가드레일 마찰 없음: 커뮤니티 보고와 달리, Fable 5는 200개의 보안 관련 코딩 작업에 대해 어떠한 안전 거부나 콘텐츠 정책 차단 없이 참여했습니다.
* 4가지 명예의 전당 최초 기록: Fable 5는 이전의 어떤 모델-에이전트 조합도 해결하지 못했던 4개의 인스턴스를 성공적으로 수정했으며, 안티-치팅 파이프라인은 이를 기억이 아닌 실제 해결로 판단하고 있습니다.

시사점

Fable 5는 특정 보안 취약점 수정 작업에서 혁신적인 성과를 달성했지만, 전반적으로는 훈련 데이터 암기 및 시간 초과와 같은 문제로 인해 성능이 제한되었으며, 이는 모델의 실제 안전한 코드 생성 능력을 평가하는 데 있어 벤치마크 설계의 중요성을 보여줍니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions