Model Showdown Round 2: Adding Gemma, Kimi, and 579 GB of Stubborn Optimism

개요

Gemma 4 및 Kimi K2를 포함한 여러 LLM을 대상으로 로컬 추론 성능을 재평가한 결과, 구성 설정의 중요성과 VRAM 제한에 따른 성능 격차가 두드러졌습니다.

주요 내용

  • Round 1 문제점 수정: Qwen 모델의 토큰 제한, Codestral 및 DeepSeek의 상호작용 메뉴 해석 오류, 모델별 컨텍스트 창 설정 불균형 등 Round 1에서 발생했던 문제점들을 수정하여 재평가를 진행했습니다.
  • Gemma 4 추가: Google의 Gemma 4 (27B 파라미터) 모델은 9.6GB 크기로 RTX 5090에 쉽게 적재되었으며, 설정 과정이 간편하고 우수한 성능을 보였습니다.
  • Kimi K2 로컬 추론 시도: Moonshot AI의 Kimi K2 (1조 파라미터, 579GB)는 VRAM에 적재하기 어려워 NVMe 오프로딩을 활용한 llama.cpp를 통해 로컬 추론을 시도했습니다. 이 과정에서 llama.cpp 빌드, 579GB 모델 다운로드, VRAM 제한으로 인한 2 GPU 레이어 설정, llama-cli의 대화 모드 버그 해결을 위해 llama-server API를 사용했습니다.
  • 성능 결과:
  • 처리 속도: Gemma 4가 167.1 tok/s로 가장 빠른 생성 속도를 보였으며, Devstral, Codestral, DeepSeek R1, Qwen 등 VRAM 내 모델들은 10-35초 내외의 총 처리 시간을 기록했습니다. Kimi K2는 NVMe 오프로딩으로 인해 19분 이상의 매우 느린 속도를 보였습니다.
  • 코드 품질: Gemma 4, Devstral, DeepSeek R1, Qwen은 100점 만점에 100점을 받았으며, Codestral과 Kimi K2는 94점을 받았습니다. Qwen은 토큰 제한 수정 후 완벽한 코드를 생성했으며, DeepSeek R1은 프롬프트 명확화로 품질이 향상되었습니다. Gemma 4는 가장 정교하고 완성도 높은 코드를 작성했습니다.
  • 성능 계층화: 로컬 추론은 VRAM 내 모델 (Tier 1)과 NVMe 오프로딩 모델 (Tier 2)로 나뉘며, VRAM 내 모델은 클라우드 API와 경쟁할 만한 속도를, NVMe 오프로딩 모델은 실용적이지 않은 매우 느린 속도를 보입니다.
  • 주요 학습 내용:
  • 구성 설정의 중요성: 모델 선택보다 토큰 제한 및 프롬프트 명확성과 같은 구성 설정이 성능에 더 큰 영향을 미칩니다.
  • VRAM의 중요성: VRAM 내 모델과 VRAM 외 모델 간의 성능 격차가 100배에 달하며, VRAM 내 모델은 클라우드와 경쟁 가능합니다.
  • 대형 모델의 잠재력: Kimi K2와 같이 VRAM에 적재되지 않는 대형 모델도 배치 처리 등 특정 사용 사례에서는 유용할 수 있습니다.
  • Gemma 4의 추천: Gemma 4는 로컬 환경에서 최고의 성능, 품질, 다운로드 크기를 제공하여 첫 설치 모델로 추천됩니다.

시사점

로컬 LLM 추론은 설정 최적화와 VRAM 용량에 따라 클라우드 API와 경쟁할 수 있는 성능을 제공하며, 특히 Gemma 4와 같은 모델은 효율적인 로컬 AI 코딩 환경 구축을 가능하게 합니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions