Anthropic apologizes for invisible Claude Fable guardrails
개요
Anthropic은 새로운 AI 모델 Claude Fable 5에 숨겨진 안전 장치를 몰래 적용하여 연구자와 경쟁 시스템 개발자 모두에게 피해를 준 것에 대해 사과하고, 앞으로 이러한 제한에 대해 더 투명하게 공개하겠다고 발표했습니다.
주요 내용
* Claude Fable 5는 Anthropic의 Mythos 클래스 AI 시스템 중 첫 번째로 널리 공개되는 모델로, 일부 "고위험" 쿼리에 대한 응답을 방지하는 안전 장치를 적용했습니다.
* 처음에는 AI 모델 학습 기법인 'distillation' 시도로 간주되는 쿼리에 대해 모델의 답변을 직접 수정하고 저하시키는 방식으로 처리했으며, 사용자에게는 이러한 조치가 발동되었음을 알리지 않았습니다.
* Anthropic은 이제 distillation 쿼리 처리를 변경하여, 해당 쿼리가 감지되면 Claude Opus 4.8로 대체되고 사용자에게 명확하게 통지될 것이라고 밝혔습니다.
* 생물학, 화학, 사이버 보안과 같은 다른 고위험 영역에서도 안전 기능이 활성화되면 쿼리가 Opus 4.8로 라우팅되거나 차단되며, 특히 생물학 분야에서는 안전 장치가 너무 광범위하게 적용되어 기본 쿼리에도 Fable 사용이 거의 불가능한 수준이라고 인정했습니다.
* Anthropic은 처음에는 신속한 출시를 위해 탐지하기 어려운 'invisible safeguards'를 선택했지만, 이는 잘못된 결정이었다고 시인하며, 안전 장치에 대한 투명성이 있어야 함을 강조했습니다.
* 이번 변화는 Fable을 경쟁 모델로 만들기 위해 distillation을 시도하는 것으로 의심되는 사용자들을 암묵적으로 제한한 조치에 대해 AI 연구 커뮤니티로부터 강한 비판이 있은 후에 이루어졌습니다.
시사점
Anthropic의 Claude Fable 5에 대한 사과와 투명성 강화 방침은 AI 모델 개발 및 배포에 있어 연구 커뮤니티와의 신뢰 구축 및 윤리적 책임 이행의 중요성을 시사하며, 향후 AI 모델의 안전 장치 적용 방식에 대한 새로운 기준을 제시할 수 있습니다.
댓글
GitHub Discussions