Claude Opus 4.8

개요

Claude Opus 4.8은 이전 버전인 Opus 4.7을 기반으로 벤치마크 성능 개선, 협업 능력 향상, 새 기능 추가 등의 발전을 이룬 최신 Claude Opus 모델입니다.

주요 내용

  • 성능 개선: Claude Opus 4.8은 코딩, 에이전트 스킬, 추론, 실무 지식 작업 등 다양한 벤치마크에서 이전 모델 대비 향상된 성능을 보입니다. 특히 Super-Agent, CursorBench, Legal Agent Benchmark 등에서 뛰어난 결과를 기록했습니다.
  • 협업 능력 향상: 사용자들은 Claude Opus 4.8이 에이전트 작업 수행 시 더욱 신뢰할 수 있고 판단력이 날카로워졌다고 평가합니다. 복잡한 다중 서비스 탐색 시에도 자신감을 보이며, 올바른 질문을 하고 실수를 스스로 파악하며 계획이 타당하지 않을 때 이의를 제기하는 등 협업 효율성이 증대되었습니다.
  • 새로운 기능:
  • 동적 워크플로우 (Dynamic Workflows): Claude Code에서 연구 미리보기 기능으로 제공되며, 대규모 문제 해결 능력을 강화합니다. 단일 세션에서 수백 개의 병렬 하위 에이전트를 실행하고, 결과를 검증한 후 사용자에게 보고합니다. 이를 통해 코드베이스 규모의 마이그레이션을 완료할 수 있습니다.
  • 노력 제어 (Effort Control): claude.ai 및 Cowork에서 사용자는 Claude가 응답에 쏟는 노력의 양을 선택할 수 있습니다. 높은 노력 설정은 더 나은 응답을 위해 더 깊은 사고를 유도하며, 낮은 설정은 더 빠른 응답과 느린 속도의 속도 제한 사용을 가능하게 합니다.
  • Messages API 시스템 항목: 개발자는 Messages API 내 시스템 항목을 통해 작업 중에 Claude의 지침을 프롬프트 캐시를 깨뜨리지 않고 수정할 수 있습니다.
  • 정직성 강화: Opus 4.8은 불확실성을 더 잘 표시하고 입증되지 않은 주장을 덜 하는 경향이 있습니다. 작성한 코드의 결함이 간과되는 경우가 이전 모델 대비 약 4배 적었습니다.
  • 정렬 및 안전성: 긍정적인 특성 면에서 사용자 자율성 지원 및 사용자 최선의 이익 추구와 같은 친사회적 특성에서 새로운 최고치를 달성했으며, 오해의 소지가 있는 행동(기만, 오용 협력 등) 비율은 Opus 4.7보다 상당히 낮고 Claude Mythos Preview와 유사한 수준입니다.
  • 다중모달 성능: Genie에서는 PDF, 다이어그램 등 비정형 콘텐츠를 직접 이해하고 처리하는 다중모달 강점을 활용하여, Opus 4.7 대비 토큰 비용 61% 저렴하게 처리합니다.
  • 가격 및 속도: 일반 사용 가격은 Opus 4.7과 동일하게 유지됩니다. Opus 4.8의 빠른 모드는 이전 모델 대비 3배 저렴해졌으며, 2.5배 빠른 속도로 작동합니다.

시사점

Claude Opus 4.8의 출시는 AI 모델의 성능, 신뢰성, 사용자 제어 기능이 지속적으로 발전하고 있음을 보여주며, 개발자와 기업이 AI를 활용하여 더 복잡하고 중요한 작업을 수행할 수 있는 가능성을 확장합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions