Anthropic says these topics are too dangerous to let its Fable 5 model talk about

개요

Anthropic이 출시한 Claude Fable 5 모델은 이전 Opus 모델을 능가하는 전반적인 성능을 갖추었으나, 사이버 보안, 생물학, 화학 등 민감한 주제에 대한 사용자의 요청을 차단하거나 이전 모델로 전환하는 안전 장치가 적용되었습니다.

주요 내용

  • Claude Fable 5는 Anthropic의 첫 "Mythos-class" 모델로, 전반적인 기능에서 이전 Opus 모델을 능가한다고 발표되었습니다.
  • Fable 5는 사이버 보안, 생물학, 화학 등 악의적인 행위자들에게 잠재적인 이점을 줄 수 있는 위험한 주제에 대한 질의응답을 방지하기 위한 안전 장치를 탑재했습니다.
  • Fable 5는 "Mythos 5"와 동일한 기반 모델을 사용하지만, Fable 5는 민감한 주제에 대한 질의를 이전 Claude Opus 4.8 모델로 전달하고 사용자에게 이를 알리는 방식으로 설계되었습니다.
  • Fable 5는 사이버 보안 관련 벤치마크에서 상당한 성능 향상을 보였습니다.
  • Anthropic은 안전 장치를 "이상적인 것보다 더 엄격하게" 조정하여, 때때로 무해한 요청을 거부할 수 있다고 언급했으나, 이는 전체 세션의 5% 미만에서 발생한다고 합니다.
  • Fable 5의 주제 기반 안전 장치는 금지된 프롬프트 주제와 잠재적인 탈옥 시도를 탐지하도록 설계된 분류기 시스템을 기반으로 합니다.
  • 1,000시간 이상의 레드팀 테스트와 버그 바운티 프로그램을 통해 외부 팀은 Fable 5에 대한 보편적인 탈옥을 찾지 못했습니다.
  • Fable 5는 이전 Claude Opus 모델보다 자동화된 탈옥 시도에 훨씬 더 잘 저항했습니다.
  • Anthropic은 Mythos 5가 이전 모델보다 훨씬 쉽게 "에이전트 해킹"을 수행하여 다단계 사이버 공격을 실행할 수 있는 능력에 대해 우려하고 있습니다.
  • 영국 AI 보안 연구소의 테스트 결과, Mythos Preview는 OpenAI의 GPT-5.5와 유사한 성능을 보였으며, 이는 Mythos의 성능이 특정 모델에 국한된 돌파구가 아님을 시사합니다.

시사점

Claude Fable 5는 AI 모델의 강력한 성능과 함께 악용 가능성을 최소화하기 위한 엄격한 안전 장치의 필요성을 보여주며, 이는 AI 윤리 및 책임 있는 개발의 중요성을 강조합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions