Anthropic Walks Back Policy That Could Have ‘Sabotaged’ AI Researchers Using Claude

개요

Anthropic이 경쟁 AI 연구를 의도적으로 방해할 수 있었던 Claude Fable 5의 비공개 정책을 철회하고, AI 연구 커뮤니티의 비판에 따라 관련 안전 장치를 사용자에게 투명하게 공개하기로 결정했습니다.

주요 내용

* 비공개 성능 저하 정책 논란: Anthropic은 Claude Fable 5의 일부 안전 장치를 사용자가 인지할 수 없도록 설계하여, 경쟁 AI 모델 개발에 사용될 경우 모델 성능을 은밀하게 저하시키려 했습니다.
* AI 연구 커뮤니티의 반발: 이러한 정책은 AI 연구자들이 Claude를 활용하여 경쟁 모델을 훈련시키는 것을 사실상 방해하며, 소수의 선도적인 AI 연구소만이 고급 AI 연구를 수행할 수 있는 미래를 초래할 수 있다는 비판을 받았습니다.
* 정책 철회 및 투명성 강화: 사용자 반발에 직면한 Anthropic은 해당 정책을 철회하고, AI 개발을 위해 Claude를 사용하려는 시도를 감지할 경우 사용자에게 알림을 제공하거나 덜 유능한 모델로 전환할 것이라고 밝혔습니다.
* Anthropic의 정책 근거: Anthropic은 AI의 빠른 발전 속도가 사회 적응 속도를 앞지를 수 있다는 우려와 함께, 해외 적국이 고성능 모델을 악용하여 심각한 안전 위험을 초래하는 것을 방지하고 기술적 우위를 유지하기 위한 목적이었다고 설명했습니다.
* 정책 공개의 영향: 안전 장치가 공개됨에 따라, 의도치 않게 더 많은 일반적인 요청이 안전 장치에 의해 차단될 수 있으며, Anthropic은 분류기의 정밀도를 높이기 위해 노력하고 있다고 밝혔습니다.

시사점

Anthropic의 이번 정책 변경은 AI 모델 개발 및 연구에서의 투명성과 공정성에 대한 업계의 요구를 반영하며, AI 안전 조치가 연구 개발 생태계에 미치는 영향을 신중하게 고려해야 함을 시사합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions