We Reproduced Anthropic's Mythos Findings with Public Models

개요

본 연구는 Anthropic이 발표한 AI 기반 취약점 연구 제한 주장의 근거를 일반 공개 모델로 재현하여, 해당 능력이 이미 공개된 모델에서도 활용 가능하며 방어자들이 이에 대비해야 함을 시사합니다.

주요 내용

* Anthropic의 Mythos 및 Project Glasswing 발표: Anthropic은 고급 AI 취약점 연구 능력의 발전과 관련하여, 이에 대한 연구 제한의 필요성을 Mythos와 Project Glasswing를 통해 제시했습니다.
* 공개 모델에서의 재현 시도: 연구진은 GPT-5.4 및 Claude Opus 4.6과 같은 공개 모델을 사용하여 FreeBSD, OpenBSD, FFmpeg, Botan, wolfSSL 등에서 Anthropic이 제시한 취약점 사례들을 재현하는 테스트를 수행했습니다.
* 재현 결과:
* FreeBSD, Botan은 두 모델 모두에서 성공적으로 재현되었습니다 (3/3 시도).
* OpenBSD는 Claude Opus 4.6만 성공적으로 재현되었으며 (3/3 시도), GPT-5.4는 재현에 실패했습니다 (0/3 시도).
* FFmpeg 및 wolfSSL의 경우, 두 모델 모두 부분적인 결과만을 얻었으며 완전한 재현에는 실패했습니다 (3/3 시도, partial).
* Methodology: Anthropic의 방법론은 단순한 프롬프트가 아닌, 코드베이스 및 런타임 환경 제공, 파일 검사, 디버깅, 가설 검증, 우선순위 지정, 병렬 실행, 2차 검토자 활용 등 체계적인 에이전트 기반 검색 프로세스임을 확인했습니다.
* 취약점 유형: 재현된 취약점 중에는 메모리 손상뿐만 아니라, 인증, 신뢰 관련 문제 등 기업 환경에서 더 실질적인 위험을 초래하는 유형도 포함되었습니다.
* 비용: 단일 파일 스캔 비용은 30달러 미만으로 나타났습니다.

시사점

AI 기반 취약점 연구 능력은 더 이상 특정 첨단 연구실에 국한되지 않으며, 공개 모델에서도 상당 부분 재현 가능하므로 방어자들은 이러한 현실에 대비해야 합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions