Qwen3.6-Plus Benchmark: It Is Trying to Finish the Job, Not Just Win Chat Scores
개요
Qwen3.6-Plus는 단순히 채팅 점수를 높이는 데 초점을 맞추기보다, 실제 작업이 시작된 후에도 모델이 지속적으로 진행할 수 있는 능력을 입증하는 데 중점을 둔 새로운 릴리스입니다.
주요 내용
* SWE-bench의 중요성: Qwen3.6-Plus는 SWE-bench Pro에서 56.6점, SWE-bench Multilingual에서 73.8점을 기록하며, 단순한 단일 함수 코딩 테스트보다 실제 코드 저장소 작업에 더 근접한 성능을 보여주었습니다. 이는 모델이 파일을 읽고, 이슈를 이해하며, 수정 사항을 결정하고, 평가를 통과해야 하는 복잡한 과정을 거쳐야 함을 의미합니다. Qwen은 내부 에이전트 스캐폴드, bash 및 파일 편집 도구, 200K 컨텍스트 창을 사용했으며, 이는 모델 자체의 지능뿐만 아니라 에이전트 루프와 특정 설정 환경을 포함한 결과를 나타냅니다.
* 실행 중심 벤치마크: Terminal-Bench 2.0 (61.6), TAU3-Bench (70.7), DeepPlanning (41.5), MCPMark (48.2), HLE w/ tool (50.6), QwenWebBench (1501.7)와 같은 벤치마크는 모델이 터미널에서 작동하고, 다단계 계획을 탐색하며, 도구를 사용하고, 피드백으로부터 복구하며, 유용한 결과에 도달할 때까지 작업을 유지하는 능력을 평가합니다. 이는 단순히 즉각적인 답변을 제공하는 것과는 다른 야망을 보여줍니다.
* 멀티모달 능력: RealWorldQA (85.4), OmniDocBench 1.5 (91.2), CC-OCR (83.4), AI2D_TEST (94.4), CountBench (97.6)와 같은 멀티모달 점수는 모델이 복잡한 문서, UI, 다이어그램을 읽고 OCR을 처리하며, 차트를 이해하고, 이러한 인식을 작업 루프에 통합하는 실질적인 능력을 갖추고 있음을 시사합니다. 이는 Perception, Reasoning, Action이 단일 워크플로우 내에서 작동하는 Qwen의 'capability loop' 비전과 일치합니다.
* 보편적 지배력 부재: MMMU (86.0), SimpleVQA (67.3), NL2Repo (37.9), HLE (28.8), MCP-Atlas (74.1)와 같은 벤치마크에서는 최상위 점수를 기록하지 않으며, 이는 모델이 모든 영역에서 완벽한 우위를 점하기보다 특정 경로(에이전트 코딩, 도구 사용, 장기 작업 완료, 멀티모달 워크플로우)에 집중적으로 최적화되었음을 나타냅니다. 이러한 프로필은 실제 제품 개발에 가까운 모델의 진화를 보여줍니다.
* 개발자를 위한 시사점: 저장소 수준 코딩 에이전트, 브라우저 또는 터미널 자동화, 장문 문서 파이프라인, 스크린샷-코드 흐름, 장기 작업 세션에서 컨텍스트 유지가 필요한 시스템을 구축하는 개발자는 Qwen3.6-Plus를 테스트해 볼 가치가 있습니다. 1M 컨텍스트 창과 multistep 에이전트 시나리오를 위한 preserve_thinking 옵션은 모델이 더 긴 실행 루프 내에서 추론을 유지하고 사용 가능하게 만드는 Qwen의 의도를 뒷받침합니다.
시사점
Qwen3.6-Plus는 단순히 첫 번째 순위를 쫓는 것이 아니라, 모델이 작업을 얼마나 잘 수행할 수 있는지, 즉 '얼마나 오래 계속할 수 있는지'에 초점을 맞춤으로써 이전 모델 출시와는 다른 새로운 방향을 제시합니다. 개발자는 실제와 유사한 복잡한 작업에 모델을 적용하여 이러한 주장을 검증할 수 있으며, 이는 이 릴리스가 실제적인 작업 완수를 목표로 하고 있음을 보여줍니다.
댓글
GitHub Discussions