A Boy That Cried Mythos: Verification Is Collapsing Trust in Anthropic

개요

Anthropic의 Claude Mythos Preview에 대한 보안 주장들은 시스템 카드 문서의 내용과 실제 시연 결과 사이의 불일치를 보여주며, 발표된 위협 narratvie에 대한 신뢰도를 저하시킨다.

주요 내용

* 문서 내용과 실제 발표의 괴리: 244페이지에 달하는 시스템 카드 문서에서 "수천 건"이라는 단어가 취합된 녹취록을 참조하는 데 한 번만 사용되었고, 취약점에 대해서는 언급되지 않았다. 또한, CVSS, CWE, CVE와 같은 표준 보안 용어나 비교 기준, 독립적인 재현 결과가 누락되었다.
* Firefox 147 평가의 문제점: Mythos 모델의 핵심 시연으로 제시된 Firefox 147 평가는 실제 Firefox 브라우저가 아닌, 보안 완화 기능이 제거된 SpiderMonkey JavaScript 엔진 쉘에서 진행되었다. 또한, 발견된 버그는 Mythos 모델이 아닌 다른 Anthropic 모델(Claude Opus 4.6)이 이미 찾아냈으며, Firefox 148에서 이미 패치가 적용된 상태였다.
* Mythos 모델의 취약점 탐지 능력 과장: Mythos 모델의 72.4%의 Full Code Execution(FCE) 성공률은 가장 효과적인 두 개의 버그를 제외하면 4.4%로 급감하며, 이는 이전 모델인 Claude Sonnet 4.6과 큰 차이가 없는 수준이다. 즉, Mythos 모델의 "독보적인" 능력은 이미 발견되고 패치된 두 가지 버그에 크게 의존하고 있었다.
* 독립적인 검증 결과: AISLE과 같은 AI 보안 스타트업의 테스트 결과, 공개된 오픈소스 모델(3.6B 파라미터)도 Anthropic이 강조한 취약점들을 낮은 비용으로 탐지할 수 있었다. 이는 Mythos의 "최첨단" 보안 역량 주장에 대한 의문을 제기한다.
* 상호 인용에 의존하는 발표 구조: Mythos의 보안 주장은 시스템 카드, 자체 블로그 게시물, Project Glasswing 발표 등 Anthropic이 작성한 세 가지 문서 내에서 서로를 인용하며 구성되어 있으며, 독립적인 파트너사의 구체적인 검증 결과나 확인은 찾아보기 어렵다.
* Glasswing 컨소시엄의 성격: "$100 million defensive initiative"는 실제 현금이 아닌 제품 사용 크레딧으로 제공되며, 이는 파트너사들에게 제품 사용을 유도하여 자체 검증 결과를 확보하려는 방식이라는 비판이 있다.
* Cybench 및 CyberGym 벤치마크 결과의 한계: Cybench 벤치마크에서 Mythos 모델이 "인프라 제약"으로 35/40개만 완료했으며, CyberGym에서의 향상은 기존에 알려진 취약점을 찾는 능력에 대한 것으로, 새로운 제로데이 취약점 발견 능력을 보여주지는 못한다.
* 사이버 레인지 실험 결과의 함의: 외부 사이버 레인지 실험에서 Mythos 모델은 "구식 소프트웨어, 설정 오류, 재사용된 자격 증명"과 같은 보안이 취약한 환경에서는 성과를 보였지만, 제대로 구성된 샌드박스나 운영 기술(OT) 환경에서는 실패했다. 이는 Mythos가 최신 보안 환경에 대한 위협이 되기보다는, 보안이 약한 환경에 더 효과적임을 시사한다.
* 보안 리뷰의 핵심 요소 누락: 시스템 카드에는 CVSS 분포, CVE 목록, 책임 있는 공개 타임라인, 공급업체 확인, 비교 기준, 오탐지율 등 일반적인 보안 검토 문서에 포함되어야 할 필수 정보들이 누락되어 있다.
* 탐지 속도 중심의 잘못된 주장: Anthropic은 취약점 탐지 속도 증가를 주요 위협으로 간주하지만, 이는 이미 오래전부터 존재해 온 퍼징(fuzzing) 도구들의 발전과 속도를 간과한 주장이며, 실제 보안 관리의 병목 현상은 탐지가 아닌 분류, 우선순위 결정, 패치 속도 등에 있다는 점을 간과한다.
* Glasswing 컨소시엄의 독점적 권한 문제: Mythos 모델의 접근을 Glasswing 컨소시엄 참여 기업으로 제한하는 것은, 해당 기업들에게만 독점적인 취약점 정보를 제공하고 공개 시점을 결정할 수 있는 권한을 부여하는 것으로, 규제 기관의 감독이나 공개 검증 없이 산업계 주요 기업들이 규제 당국 역할을 하게 되는 상황을 초래할 수 있다는 우려가 제기된다.

시사점

Anthropic의 Mythos 모델 발표는 보안 주장 검증의 중요성을 강조하며, 기술 홍보와 실제 성능 사이에 투명하고 독립적인 검증 과정이 필수적임을 시사한다. 또한, AI 보안 분야에서 정보 공개의 투명성 및 공정성에 대한 논의가 필요함을 보여준다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions