Kimi K2.6 just beat Claude, GPT-5.5, and Gemini in a coding challenge

개요

Kimi K2.6 모델이 AI 코딩 콘테스트의 Word Gem Puzzle에서 Claude Opus 4.7, GPT-5.5, Gemini Pro 3.1 등의 경쟁 모델들을 제치고 우승하며 주목받고 있다.

주요 내용

  • AI 코딩 콘테스트의 12일차 진행된 Word Gem Puzzle 챌린지에서 Moonshot AI의 Kimi K2.6 모델이 22점, 7-1-0의 기록으로 1위를 차지했다.
  • 2위는 Xiaomi의 MiMo V2-Pro (20점, 6-2-0), 3위는 GPT-5.5 (16점, 5-1-2)가 차지했으며, Claude Opus 4.7은 5위 (12점, 4-0-4)에 올랐다.
  • Word Gem Puzzle은 격자판의 글자 타일을 이동시켜 영어 단어를 만드는 방식으로, 7자 이상의 단어는 점수를 얻고 7자 미만 단어는 감점하는 규칙을 적용했다.
  • Kimi K2.6은 모든 가능한 이동으로 가장 높은 점수를 얻을 수 있는 단어를 찾는 탐욕적인(greedy) 전략을 사용했으며, 특히 30x30과 같이 글자 재배치가 심한 판에서 높은 이동량으로 이점을 얻었다.
  • MiMo V2-Pro는 초기 격자에서 7자 이상의 단어를 찾아 한 번에 제출하는 전략을 사용했으며, 단어가 그대로 남아있는 경우에만 높은 점수를 얻었다.
  • Claude Opus 4.7은 25x25 판에서는 선전했으나, 실제 타일 이동이 필요한 30x30 판에서는 성능이 저하되는 모습을 보였다.
  • GPT-5.5는 보수적인 슬라이딩 전략을 사용했으며, 15x15 및 30x30 판에서 강점을 보였다.
  • DeepSeek V4는 매 라운드마다 잘못된 데이터를 전송하여 실질적인 경쟁이 불가능했으며, Muse Spark는 모든 길이의 단어를 무분별하게 제출하여 누적 점수 -15,309점을 기록하며 최하위를 기록했다.
  • 30x30과 같은 대형 격자에서 모델 간의 성능 차이가 두드러졌으며, 탐색적으로 움직이는 모델이 정적인 스캔만 하는 모델보다 유리했다.
  • Kimi K2.6과 MiMo V2-Pro는 상반된 전략을 사용했음에도 불구하고 거의 동일한 점수를 기록하며, 1위와 2위 간의 격차가 단순히 능력 차이뿐만 아니라 초기 설정(seed variance)에 의한 영향도 있음을 시사한다.
  • 오픈 가중치 모델인 Kimi K2.6이 선도적인 서구권 모델들과 근접한 성능을 보여주며, 오픈 가중치 모델의 발전 속도와 경쟁 환경 변화를 보여주는 사례가 되었다.

시사점

이번 챌린지 결과는 대형 언어 모델의 성능이 오픈 가중치 모델에서도 빠르게 발전하고 있음을 보여주며, 특히 실제 코딩 작업과 유사한 실시간 의사 결정 능력에 대한 평가 기준을 새롭게 제시할 수 있다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions