Google's new Gemma 4 12B model is designed to run on any laptop with 16GB of RAM

Ars Technica 2026년 6월 3일

techaigoogleartificial intelligencegenerative ai

Google의 Gemma 4 12B 모델은 16GB RAM을 갖춘 노트북에서도 실행 가능하도록 설계되었으며, 260억 개의 파라미터를 가진 이전 모델에 버금가는 성능을 제공합니다.

Gemma 4 12B는 260억 개 파라미터 버전과 거의 동일한 수준의 역량을 제공합니다.
이전에는 더 큰 Gemma 모델에서만 가능했던 복잡한 다단계 추론 및 에이전트 워크플로우 수행이 가능합니다.
새로운 Multi-Token Prediction (MTP) 드래프터를 통해 사용되지 않는 처리 사이클을 활용하여 미래 토큰을 계산함으로써 속도와 효율성을 향상시켰습니다.
Gemma 4 12B는 새로운 멀티모달리티 접근 방식을 통해 효율성을 높였으며, 텍스트, 오디오, 이미지를 입력으로 받을 수 있습니다.
기존 모델들이 비텍스트 입력을 처리하기 위해 별도의 인코더를 사용했던 것과 달리, Gemma 4 12B는 비전 처리를 위해 단일 행렬 곱셈과 위치 임베딩을 사용하는 간소화된 임베딩 모듈을 구현하여 레이턴시와 메모리 사용량을 줄였습니다.
오디오 입력의 경우, 원시 오디오 신호를 텍스트 토큰과 동일한 벡터로 투영하는 방식을 사용하여 별도의 인코딩 과정 없이 처리합니다.
LM Studio, Google AI Edge Gallery와 같은 도구를 통해 다운로드 없이도 Gemma 4 12B를 체험할 수 있으며, Kaggle 및 Hugging Face에서 모델 가중치를 다운로드하여 로컬에서 실행할 수 있습니다.

Gemma 4 12B 모델의 등장은 고성능 LLM을 로컬 환경에서도 접근 가능하게 만들어 개인 사용자 및 개발자들의 LLM 활용 범위를 넓히고, 엣지 컴퓨팅 환경에서의 AI 적용 가능성을 높이는 데 기여할 것으로 보입니다.

원문을 불러오는 중...

GitHub Discussions

댓글