Google's new Gemma 4 12B model is designed to run on any laptop with 16GB of RAM
개요
Google의 Gemma 4 12B 모델은 16GB RAM을 갖춘 노트북에서도 실행 가능하도록 설계되었으며, 260억 개의 파라미터를 가진 이전 모델에 버금가는 성능을 제공합니다.
주요 내용
- Gemma 4 12B는 260억 개 파라미터 버전과 거의 동일한 수준의 역량을 제공합니다.
- 이전에는 더 큰 Gemma 모델에서만 가능했던 복잡한 다단계 추론 및 에이전트 워크플로우 수행이 가능합니다.
- 새로운 Multi-Token Prediction (MTP) 드래프터를 통해 사용되지 않는 처리 사이클을 활용하여 미래 토큰을 계산함으로써 속도와 효율성을 향상시켰습니다.
- Gemma 4 12B는 새로운 멀티모달리티 접근 방식을 통해 효율성을 높였으며, 텍스트, 오디오, 이미지를 입력으로 받을 수 있습니다.
- 기존 모델들이 비텍스트 입력을 처리하기 위해 별도의 인코더를 사용했던 것과 달리, Gemma 4 12B는 비전 처리를 위해 단일 행렬 곱셈과 위치 임베딩을 사용하는 간소화된 임베딩 모듈을 구현하여 레이턴시와 메모리 사용량을 줄였습니다.
- 오디오 입력의 경우, 원시 오디오 신호를 텍스트 토큰과 동일한 벡터로 투영하는 방식을 사용하여 별도의 인코딩 과정 없이 처리합니다.
- LM Studio, Google AI Edge Gallery와 같은 도구를 통해 다운로드 없이도 Gemma 4 12B를 체험할 수 있으며, Kaggle 및 Hugging Face에서 모델 가중치를 다운로드하여 로컬에서 실행할 수 있습니다.
시사점
Gemma 4 12B 모델의 등장은 고성능 LLM을 로컬 환경에서도 접근 가능하게 만들어 개인 사용자 및 개발자들의 LLM 활용 범위를 넓히고, 엣지 컴퓨팅 환경에서의 AI 적용 가능성을 높이는 데 기여할 것으로 보입니다.
원문을 불러오는 중...
댓글
GitHub Discussions