Claude Opus 4.8: What Developers Need to Know About Anthropic's New Flagship

개요

Anthropic은 Claude Opus 4.8을 출시하며 기존 Opus 4.7과 동일한 가격으로 속도는 2.5배, Fast mode 비용은 3배 저렴하게 제공합니다.

주요 내용

* 벤치마크 성능 향상:
* SWE-Bench Pro (에이전트 코딩): Opus 4.8은 69.2%로 Opus 4.7 (64.3%) 대비 4.9p, GPT-5.5 (58.6%) 대비 10.6p 앞섰습니다.
* Terminal-Bench 2.1 (에이전트 터미널 코딩): Opus 4.8은 74.6%로 GPT-5.5 (78.2%)에 이어 두 번째이지만, Opus 4.7 (66.1%) 대비 8.5p 향상되었습니다.
* OSWorld-Verified (에이전트 컴퓨터 사용): Opus 4.8은 83.4%로 GPT-5.5 (78.7%)를 능가했습니다.
* Humanity's Last Exam (추론, 도구 사용): Opus 4.8은 57.9%로 GPT-5.5 (52.2%), Gemini 3.1 Pro (51.4%)를 앞섰습니다.
* Finance Agent v2: Opus 4.8은 53.9%로 GPT-5.5 (51.8%)를 능가했습니다.
* Legal Agent Benchmark: Opus 4.8은 처음으로 10%를 돌파했습니다.
* 코드 품질 및 도구 호출 개선:
* Opus 4.8은 Opus 4.7 대비 코드 결함을 간과할 확률이 약 4배 낮아졌으며, 자체 실수를 더 잘 포착하고 계획 오류에 대해 더 적극적으로 피드백합니다.
* Devin 팀은 Opus 4.8이 도구를 깔끔하게 사용하고 자율 엔지니어링 작업에 필요한 일관성을 제공한다고 확인했습니다.
* CursorBench 결과, Opus 4.8은 모든 노력 수준에서 이전 Opus 모델을 능가하며 전반적으로 더 효율적인 도구 호출을 보여줍니다.
* Claude Code의 동적 워크플로우:
* 연구 프리뷰로 제공되는 동적 워크플로우는 모델이 작업을 계획하고 단일 세션에서 수백 개의 병렬 서브 에이전트를 실행할 수 있게 합니다.
* 이는 수십만 줄의 코드에 대한 코드베이스 규모의 마이그레이션을 지원하며, 특히 대규모 리팩토링, 프레임워크 마이그레이션, 서비스 간 변경 작업에 유용합니다.
* Enterprise, Team, Max 플랜에서 사용 가능합니다.
* 정렬(Alignment) 개선:
* Opus 4.8은 Opus 4.7 대비 오해하거나 악용될 수 있는 행동이 현저히 감소했습니다.
* Anthropic의 오정렬 지표에서 Opus 4.8은 1.83으로, Opus 4.7 (2.47)보다 개선된 정렬 성능을 보입니다.
* 가격 정책:
* Opus 4.7과 동일한 가격을 유지합니다.
* Fast mode는 2.5배 빨라졌으며, 이전 모델의 Fast mode 대비 비용은 3배 저렴해졌습니다.
* Databricks는 Genie 에이전트의 토큰 비용이 Opus 4.7 대비 61% 저렴해졌다고 보고했습니다.

시사점

Claude Opus 4.8은 개발자 생산성 향상과 비용 효율성 증대에 기여할 수 있으며, 특히 복잡한 코드베이스 작업 및 자율 에이전트 개발에 있어 상당한 이점을 제공합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions