Claude Fable won’t answer basic biology questions
개요
Claude Fable 5 모델은 생물학 질문에 대한 답변을 제공하는 데 제한적인 모습을 보이며, 이는 Anthropic이 의도적으로 적용한 안전 장치 때문이다.
주요 내용
* Anthropic이 출시한 Claude Fable 5는 현재까지 가장 강력한 AI 모델로 소개되었으나, 기초적인 생물학 질문에는 응답하지 않는다.
* Fable 5는 질문을 이전 모델인 Claude Opus 4.8로 넘기며, 이는 Fable 5가 해당 지식을 알지 못해서가 아니라 Anthropic의 설계상 제약 때문이다.
* Fable 5는 사이버 보안 작업에 매우 능숙하지만, 생물학 분야에서 가장 명확하고 제한적인 안전 장치가 적용되었다.
* 모델은 "세포막에 대해 알려줘" 또는 "미토콘드리아가 무엇인가"와 같은 기초적인 질문에도 답변을 거부했다.
* 건초열의 원인, 천식 약의 작용 방식, 항생제 내성 발생 과정, 에볼라 바이러스의 정의 및 확산 방식 등 평범하고 무해해 보이는 의학 관련 질문에도 응답하지 않았다.
* "암이란 무엇인가" 또는 "DNA란 무엇인가"와 같은 일부 기초 질문에는 답변했지만, 거부 시 Opus 4.8은 완벽하게 응답했다.
* Anthropic은 이러한 광범위한 생물학 필터링이 생물 무기 개발에 대한 우려 때문에 의도적이고 보수적으로 설정되었다고 밝혔다.
* Fable 5는 화학 및 사이버 보안 질문에는 비교적 더 잘 응답하는 경향을 보였으나, 사린 가스나 탄저균 제조 방법에 대한 질문에는 제한이 있었다.
* Anthropic은 이러한 제약이 고객이 위험 없이 모델의 기능을 더 빨리 활용할 수 있도록 하는 절충안이며, 탐지 개선 및 오탐 감소를 위해 노력 중이라고 설명했다.
* 향후 Mythos-class 모델은 이러한 안전 장치 없이 생물학 및 생명 과학 커뮤니티에 제공되어 연구 개발 가속화를 지원할 예정이다.
시사점
Anthropic은 AI 모델의 잠재적 위험을 관리하기 위해 의도적으로 안전 장치를 강화했으며, 이는 기술 발전과 안전 사이의 균형을 맞추려는 노력의 일환으로 볼 수 있다.
댓글
GitHub Discussions