Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fable
개요
Anthropic이 공개한 Fable 모델은 사이버 보안 관련 요청을 과도하게 차단하는 경향이 있어 보안 연구원들 사이에서 불만을 사고 있습니다.
주요 내용
* Fable 모델은 사이버 보안 및 생물학 관련 주제를 감지하면 요청을 거부하며, 이러한 안전 조치는 멀웨어 개발이나 소프트웨어 침해 위험을 줄이기 위해 설정되었습니다.
* 보안 연구원 Valentina Palmiotti는 Fable이 간단한 블로그 게시물 읽기와 같은 사소한 사이버 관련 작업 요청조차 거부한다고 지적했습니다.
* 이전 모델인 Mythos 역시 제한된 접근으로 출시되었으나, Fable의 제한은 키워드 기반으로 작동하여 "보안 코드를 작성하라"는 요청을 소프트웨어 엔지니어링 모범 사례가 아닌 사이버 보안 작업으로 간주하는 등 부작용을 낳고 있습니다.
* Fable은 안전 조치에 걸릴 경우 Claude Opus 4.8로 전환되지만, 이 키워드 기반의 엄격한 차단 방식이 비판의 대상이 되고 있습니다.
* Anthropic은 사이버 보안 전문가들을 위해 별도의 Cyber Verification Program을 운영하며, 승인된 사용자에게는 Claude 사용에 대한 제한을 완화하고 있습니다. OpenAI도 유사한 Trusted Access for Cyber 프로그램을 운영 중입니다.
시사점
Fable 모델의 과도한 안전 조치 설정은 AI 모델의 유용성을 저해할 수 있으며, 향후 AI 모델 개발 시 의도치 않은 제약 없이 특정 분야의 전문가들이 자유롭게 활용할 수 있도록 하는 정교한 가드레일 설계의 중요성을 보여줍니다.
댓글
GitHub Discussions