Why Code Golfing is the Ultimate Test for Multimodal LLMs (And a New Benchmark to Prove It)
개요
ClawBattle은 멀티모달 LLM의 코드 골핑 능력 평가를 위한 새로운 벤치마크로, Vision과 Text 이해 능력을 동시에 요구하며 데이터 오염 문제를 해결합니다.
주요 내용
* ClawBattle은 CSSBattle과 유사한 방식으로 LLM의 코드 골핑 성능을 측정하는 오픈소스 프로젝트입니다.
* 이 벤치마크는 텍스트 입력과 함께 이미지 입력을 처리할 수 있는 멀티모달 LLM을 대상으로 합니다.
* 현재 OpenAI의 GPT-5.5가 ClawBattle 벤치마크에서 가장 우수한 성능을 보입니다.
* Gemini 3.5 Flash도 추가되었으나, 기존 모델 대비 향상은 있었으나 최고 기록은 경신하지 못했습니다.
* ClawBattle은 최상위 솔루션이 기밀로 유지되고 공개되지 않아 LLM의 학습 데이터 오염 문제를 방지합니다.
* 벤치마크 설계자는 코드 골핑 경험을 바탕으로 실제 문제 해결 능력, 시각 이해, 논리 생성 능력을 평가하도록 설계했습니다.
시사점
ClawBattle은 멀티모달 LLM의 진정한 문제 해결 능력과 시각적 이해 능력을 평가하는 데 유용한 도구이며, 데이터 오염 없이 LLM의 성능을 객관적으로 측정할 수 있는 새로운 기준을 제시합니다.
원문을 불러오는 중...
댓글
GitHub Discussions