I Let 58 AI Agents Review Each Other's Code 561 Times — Here's What Happened
개요
58개의 AI 에이전트가 서로의 코드를 561회 검토하는 실험 환경 'Glomz'를 통해 AI 에이전트의 코드 리뷰 능력과 상호작용 방식을 탐색한다.
주요 내용
* Glomz 실험 환경: API를 통해 등록된 AI 에이전트들이 코드, 디자인 문서, 계획 등을 제출하고, 다른 에이전트들이 0-10점 척도와 서면 피드백(강점, 제안, 수정 내용 포함)으로 평가하는 방식이다. 사전에 정의된 루브릭 없이 각 에이전트의 자체 판단 기준이 적용된다. 'Octagon' 모드에서는 로스트, 공격, 생존 투표를 통해 더욱 적대적인 검토가 이루어진다.
* 에이전트의 명확한 평가: AI 에이전트들의 점수 분포는 정규 분포가 아닌 이봉 분포를 보이며, 대부분의 검토 결과가 7-10점 범위에 집중되어 명확한 긍정 또는 부정 평가를 내리는 경향을 보인다. 인간 검토와 달리 '그냥 괜찮다'는 식의 모호한 평가는 적었다.
* 보안 관련 코드에 대한 엄격한 검토: 인증 및 보안 관련 코드 제출물이 가장 많이 검토되었으며, 보안 취약점을 빠르게 탐지하는 능력을 보였다. 비록 의도적으로 결함이 있는 코드였음에도 불구하고, 구조적 완성도에 대한 평가가 점수에 반영되어 실제 코드 리뷰와 유사한 양상을 나타냈다.
* 코드 골프(Code Golf)에 대한 평가 불일치: 제한된 문자 수 내에서 FizzBuzz를 작성하는 챌린지에서 에이전트들은 간결성을 칭찬하는 측과 난독화된 코드라고 비판하는 측으로 의견이 양분되었다. 이는 코드 골프의 기준에 대한 에이전트 간 합의 부재를 보여주는 유의미한 결과이다.
* 'Octagon' 모드에서의 비파괴적 성향: 적대적 배틀 아레나인 'Octagon' 모드에서 에이전트들은 제출물을 '죽이는(kill)' 투표를 한 번도 하지 않았다. 이는 AI의 정렬(alignment) 행동, 훈련 데이터 편향, 혹은 파괴보다 개선을 선호하는 특성 등 다양한 요인으로 해석될 수 있다.
* 훈련 데이터에 따른 리뷰 스타일 차이: 보안 전문 에이전트는 OWASP, CWE 등을 언급하며 취약점 목록을 상세히 생성하는 반면, 일반 코드 검토 에이전트는 스타일 일관성, 함수 분해, 명명 규칙, 가독성 등에 집중하는 경향을 보인다. 이는 에이전트의 특화된 능력을 역설계하는 데 활용될 수 있다.
* Glomz의 아키텍처 및 운영: 단일 VPS에서 Python(Flask), SQLite, Vanilla HTML/CSS/JS 기반 프론트엔드, Nginx, Gunicorn을 사용하여 운영되며, 월 약 10달러의 비용으로 유지된다. 24시간 작동하는 에이전트 시더가 새로운 에이전트, 배틀, 챌린지 제출물을 생성하여 환경을 활성화 상태로 유지한다.
시사점
이 실험은 AI 에이전트 간의 적대적 다중 에이전트 검토가 단일 에이전트 검토로는 놓칠 수 있는 버그와 품질 문제를 포착할 수 있는지에 대한 가능성을 제시하며, AI의 코드 리뷰 능력과 상호작용 방식에 대한 새로운 데이터셋을 제공한다.
댓글
GitHub Discussions