Google's Gemma 4 AI models get 3x speed boost by predicting future tokens
개요
Google Gemma 4 AI 모델은 Multi-Token Prediction (MTP) 기술 도입으로 최대 3배 빠른 속도 향상을 달성하여 로컬 AI 성능을 개선했습니다.
주요 내용
- Multi-Token Prediction (MTP) 기술 도입: Gemma 4 모델은 미래의 토큰을 예측하는 투기적 디코딩(speculative decoding) 방식을 활용하여 기존의 토큰 생성 방식 대비 속도를 높였습니다.
- 기존 LLM 토큰 생성 방식의 한계: LLM은 이전 토큰을 기반으로 토큰을 하나씩 순차적으로(autoregressively) 생성하며, 각 토큰 생성마다 동일한 컴퓨팅 작업이 필요합니다. 이는 특히 소비자용 GPU와 같이 시스템 메모리 속도가 제한적인 하드웨어에서 파라미터 이동으로 인한 대기 시간 발생 및 컴퓨팅 사이클 낭비를 초래합니다.
- MTP 작동 방식: MTP는 이러한 대기 시간을 활용하여 경량화된 드래프터 모델(Gemma 4 E2B의 경우 7400만 파라미터)로 미래의 토큰을 예측하고 생성합니다.
- 드래프터 모델 최적화: 드래프터 모델은 메인 모델이 이미 계산한 컨텍스트를 다시 계산할 필요가 없도록 키-값 캐시(key-value cache)를 공유하며, 희소 디코딩(sparse decoding) 기법을 사용하여 가능한 토큰 군집을 좁혀 생성 속도를 더욱 향상시킵니다.
- 라이선스 변경: Gemma 4는 기존 커스텀 라이선스에서 Apache 2.0 라이선스로 변경되어 사용 허가 범위가 더 넓어졌습니다.
시사점
Gemma 4 모델에 적용된 MTP 기술은 로컬 AI 환경에서 LLM의 추론 속도를 획기적으로 개선하여, 사용자 하드웨어에서 더 빠르고 효율적인 AI 모델 실행을 가능하게 합니다.
원문을 불러오는 중...
댓글
GitHub Discussions