Claude Opus 4.8: What Developers Need to Know About Anthropic's New Flagship

Dev.to 2026년 5월 28일

devclaudellmaidevops

개요

Anthropic은 Claude Opus 4.8을 출시하며 기존 Opus 4.7과 동일한 가격으로 속도는 2.5배, Fast mode 비용은 3배 저렴하게 제공합니다.

주요 내용

* 벤치마크 성능 향상:
* SWE-Bench Pro (에이전트 코딩): Opus 4.8은 69.2%로 Opus 4.7 (64.3%) 대비 4.9p, GPT-5.5 (58.6%) 대비 10.6p 앞섰습니다.
* Terminal-Bench 2.1 (에이전트 터미널 코딩): Opus 4.8은 74.6%로 GPT-5.5 (78.2%)에 이어 두 번째이지만, Opus 4.7 (66.1%) 대비 8.5p 향상되었습니다.
* OSWorld-Verified (에이전트 컴퓨터 사용): Opus 4.8은 83.4%로 GPT-5.5 (78.7%)를 능가했습니다.
* Humanity's Last Exam (추론, 도구 사용): Opus 4.8은 57.9%로 GPT-5.5 (52.2%), Gemini 3.1 Pro (51.4%)를 앞섰습니다.
* Finance Agent v2: Opus 4.8은 53.9%로 GPT-5.5 (51.8%)를 능가했습니다.
* Legal Agent Benchmark: Opus 4.8은 처음으로 10%를 돌파했습니다.
* 코드 품질 및 도구 호출 개선:
* Opus 4.8은 Opus 4.7 대비 코드 결함을 간과할 확률이 약 4배 낮아졌으며, 자체 실수를 더 잘 포착하고 계획 오류에 대해 더 적극적으로 피드백합니다.
* Devin 팀은 Opus 4.8이 도구를 깔끔하게 사용하고 자율 엔지니어링 작업에 필요한 일관성을 제공한다고 확인했습니다.
* CursorBench 결과, Opus 4.8은 모든 노력 수준에서 이전 Opus 모델을 능가하며 전반적으로 더 효율적인 도구 호출을 보여줍니다.
* Claude Code의 동적 워크플로우:
* 연구 프리뷰로 제공되는 동적 워크플로우는 모델이 작업을 계획하고 단일 세션에서 수백 개의 병렬 서브 에이전트를 실행할 수 있게 합니다.
* 이는 수십만 줄의 코드에 대한 코드베이스 규모의 마이그레이션을 지원하며, 특히 대규모 리팩토링, 프레임워크 마이그레이션, 서비스 간 변경 작업에 유용합니다.
* Enterprise, Team, Max 플랜에서 사용 가능합니다.
* 정렬(Alignment) 개선:
* Opus 4.8은 Opus 4.7 대비 오해하거나 악용될 수 있는 행동이 현저히 감소했습니다.
* Anthropic의 오정렬 지표에서 Opus 4.8은 1.83으로, Opus 4.7 (2.47)보다 개선된 정렬 성능을 보입니다.
* 가격 정책:
* Opus 4.7과 동일한 가격을 유지합니다.
* Fast mode는 2.5배 빨라졌으며, 이전 모델의 Fast mode 대비 비용은 3배 저렴해졌습니다.
* Databricks는 Genie 에이전트의 토큰 비용이 Opus 4.7 대비 61% 저렴해졌다고 보고했습니다.

시사점

Claude Opus 4.8은 개발자 생산성 향상과 비용 효율성 증대에 기여할 수 있으며, 특히 복잡한 코드베이스 작업 및 자율 에이전트 개발에 있어 상당한 이점을 제공합니다.

원문 읽기 →

원문을 불러오는 중...

GitHub Discussions

개요

주요 내용

시사점

댓글

관련 기사