Claude Fable 5 vs Opus 4.8: The Mythos Hype Meets Reality

개요

Claude Fable 5는 Anthropic의 Mythos-class 모델로, Opus 4.8보다 한 단계 높은 성능을 제공하지만, 실제 평가에서는 예상보다 큰 성능 차이를 보이지 않았으며 비용 효율성이 중요한 경우 Opus 4.8이 여전히 더 나은 선택이 될 수 있습니다.

주요 내용

* Claude Fable 5 vs Opus 4.8 성능 비교:
* 전반적인 점수에서 Fable 5는 Opus 4.8보다 0.9점 높은 92.9점을 기록했습니다.
* 실행된 시나리오의 61%에서 두 모델은 동등한 성능을 보였으며, Fable 5가 24%, Opus 4.8이 16%에서 우위를 차지했습니다.
* Fable 5는 Opus 4.8이 완료한 26개의 작업을 거부했습니다.
* Agent Skill의 중요성:
* Agent Skill은 모델 성능을 약 17점 향상시키며, 이는 모델 업그레이드(1점 미만)보다 훨씬 큰 영향을 미칩니다.
* Skill은 주로 Instruction-Following(지시 사항 준수) 능력을 향상시키며, 이는 실제 에이전트 작업에서 목표 달성 능력보다 더 중요한 차별화 요소입니다.
* 비용 효율성:
* Fable 5는 Opus 4.8에 비해 토큰당 가격이 두 배입니다.
* 작업당 비용은 Fable 5가 $1.25, Opus 4.8이 $0.74로, Fable 5는 약 73% 더 비쌉니다.
* 비용 대비 성능(Points per dollar) 면에서 Opus 4.8은 125, Fable 5는 74로, Opus 4.8이 훨씬 높은 가치를 제공합니다.
* Fable 5의 거부 및 안전 장치:
* Fable 5는 사이버 보안, 생물학 및 화학, 프론티어 LLM 개발 등 특정 도메인에서 안전 장치(classifiers)로 인해 작업을 거부할 수 있습니다.
* 이러한 거부 현상은 Opus 4.8이 완료했던 작업(예: 보안 취약점 검토, 생물정보학 작업)에서 발생했으며, 특히 사이버 보안 관련 작업에서 Fable 5의 거부가 두드러졌습니다.
* Anthropic은 일부 안전 장치가 "지나치게 보수적"이었다고 인정하고 일부 정책을 변경했습니다.
* 특정 워크로드에서의 성능 차이:
* Fable 5는 웹 리서치 및 스크래핑 워크로드(Apify, Google Gemini, Tavily, Firecrawl)에서 Opus 4.8보다 우수한 성능을 보였습니다.
* Opus 4.8은 Mastra, Auth0, Axiom과 같은 특정 워크로드에서 Fable 5보다 나은 성능을 유지했습니다.
* 활용 시점:
* Opus 4.8: 대규모 코딩 에이전트 플릿 운영 시 비용 효율성을 최우선으로 고려할 때, 대부분의 워크로드에서 품질 차이가 미미하고 비용 대비 성능이 높으며 추가적인 fallback 메커니즘 설계가 필요 없습니다.
* Fable 5: 웹 리서치 및 스크래핑 작업이 많거나, 긴 호라이즌 작업에 대한 추론 능력이 필요하거나, Opus 4.8 이상의 기능 클래스가 필요한 경우 사용합니다. 이 경우 약 73%의 추가 비용을 감수하고, fallback 탐지 기능을 Harness에 내장해야 합니다.

시사점

Fable 5는 Mythos 클래스의 잠재력을 보여주지만, 실제 배포 시에는 비용, 안전 장치로 인한 거부 가능성, 그리고 Agent Skill의 중요성을 종합적으로 고려해야 하며, 각 팀의 특정 워크로드에 대한 자체 평가가 모델 선택에 있어 결정적인 역할을 합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions