One Ruler to Measure Them All: How Language Affects LLM Quality

개요

LLM 성능에 언어가 미치는 영향은 모델 아키텍처나 프롬프팅 외에 토크나이저가 핵심적인 역할을 하며, 이는 텍스트가 컨텍스트 창에 얼마나 많이 들어가는지를 결정한다.

주요 내용

* 토크나이저 문제: 동일한 정보 밀도에서 러시아어 텍스트는 영어보다 더 많은 토큰을 소비하며, 일부 개발자는 토큰 절약과 성능 향상을 위해 영어 프롬프트로 전환하기도 한다.
* 실험 결과: 최근 arXiv 연구에서 다국어 장기 컨텍스트 언어 모델을 대상으로 벤치마킹한 결과, 폴란드어가 88%로 가장 높은 정확도를 보였고, 러시아어(84%)가 영어(83.9%)보다 앞섰다.
* 장기 컨텍스트의 영향: 컨텍스트가 길어질수록 더 많은 토큰 사용은 모델의 일관성 저하 가능성을 높인다.
* 모델 수준의 한계: 해당 테스트는 2026년 기준 "약한" 모델(Gemini 1.5 Flash, Qwen 2.5 72B 등)을 사용했으며, 최상위 모델에서는 다른 패턴이 나타날 수 있으나 토크나이저 효과는 모델 품질과 무관하게 지속된다.
* 프로덕션 시사점: RAG(Retrieval Augmented Generation)에서 언어 선택은 중요하며, 지식 기반이 다국어일 경우 검색 품질은 언어별로 달라진다. 장기 컨텍스트 작업은 압축률이 높은 언어에 유리하며, 영어는 러시아어보다 토큰 효율성이 높지만 폴란드어는 두 언어 모두 능가했다.
* 측정 지표의 필요성: BLEU 및 ROUGE와 같은 지표는 토큰화 편향을 포착하지 못하므로, 토크나이저에 둔감한 측정 지표 개발이 필요하다.
* 향후 추적 사항: 최신 모델(Kimi k2.5, GLM-5, GPT-5.2 시리즈)에서도 동일한 패턴이 나타나는지 모니터링 중이며, 초기 징후로는 최상위 모델이 언어 간 압축을 더 잘 하지만 격차가 완전히 사라지지는 않는 것으로 보인다.

시사점

언어 선택이 LLM의 성능, 특히 RAG 시스템의 검색 품질과 장기 컨텍스트 처리 능력에 상당한 영향을 미치므로, 다국어 환경에서는 언어별 토큰화 특성을 고려한 모델 선택 및 최적화가 필수적이다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions