Exploiting the most prominent AI agent benchmarks

개요

AI 에이전트 벤치마크 8개를 대상으로 수행된 시스템적 감사 결과, 모든 벤치마크가 실제 과제 해결 없이도 거의 완벽한 점수를 얻을 수 있도록 악용될 수 있음이 밝혀졌습니다.

주요 내용

* 벤치마크의 신뢰성 문제: AI 에이전트 벤치마크 리더보드의 점수가 과대평가되거나 무의미해지고 있으며, 이는 실제 성능 측정 대신 점수 계산 방식의 취약점을 이용하는 방식 때문입니다.
* 주요 벤치마크의 악용 사례:
* SWE-bench: conftest.py 파일 하나로 모든 테스트를 통과시키는 방식으로 100% 점수 획득.
* Terminal-Bench: 가짜 curl 래퍼를 통해 89개 과제 모두에서 100% 점수 획득, 솔루션 코드 작성 없이.
* WebArena: file:// URL 접근을 통해 과제 설정 파일에서 정답을 직접 읽어 812개 과제에서 약 100% 점수 획득.
* FieldWorkArena: 유효성 검사 함수가 답변의 정확성을 확인하지 않아 890개 과제에서 100% 점수 획득.
* CAR-bench: 환각(hallucination) 과제에서 LLM 판정의 보상 요소를 건너뛰어 100% 점수 획득.
* GAIA: 공개된 정답과 정규화(normalization) 충돌을 이용해 약 98% 점수 획득.
* OSWorld: VM 상태 조작 및 공개된 정답 파일을 이용해 73% 점수 획득.
* 취약점 패턴:
1. 에이전트와 평가자 간 격리 부족: 동일한 환경에서 코드가 실행되어 상태 조작 가능.
2. 테스트와 함께 제공되는 정답: 작업 구성 파일에 정답이 포함되어 있어 조회 속도 측정.
3. 신뢰할 수 없는 입력에 대한 eval() 사용: 평가 머신에서 임의 코드 실행 가능.
4. 입력 검증 없는 LLM 판정: 프롬프트 인젝션으로 판정 조작 용이.
5. 취약한 문자열 매칭: 느슨한 비교 방식으로 부적절한 답변도 통과.
6. 평가 로직의 오류: 실제 답변 정확성 미확인, 특정 과제 유형 평가 누락.
7. 신뢰할 수 없는 코드 출력 신뢰: 에이전트가 제어하는 환경에서 생성된 출력 신뢰.
* BenchJack 소개: 이러한 취약점을 스캔하는 자동화 도구로, 벤치마크의 취약점을 찾아내고 실제 악용 가능한 익스플로잇을 생성.

시사점

벤치마크 점수는 AI 에이전트의 실제 능력을 정확히 반영하지 못하며, 모델 선택, 투자, 연구 방향 등에 잘못된 영향을 미칠 수 있습니다. 따라서 벤치마크 설계 시에는 에이전트와 평가자 간의 철저한 격리, 정답 비공개, 입력값 검증 등 Agent-Eval Checklist에 기반한 견고한 평가 방법론을 적용해야 합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions