Gemma 4 12B: A unified, encoder-free multimodal model

개요

Gemma 4 12B는 노트북에서 직접 고성능 멀티모달 인텔리전스를 구동할 수 있도록 설계된, 통합된 인코더 없는 멀티모달 모델이다.

주요 내용

* 통합 아키텍처: 별도의 멀티모달 인코더 없이 비전 및 오디오 입력이 LLM 백본으로 직접 흘러 들어가 처리된다.
* 고성능 추론: 벤치마크 성능은 26B 모델에 근접하며, 다단계 추론 및 에이전트 워크플로우를 지원한다.
* 로컬 실행 가능: 16GB VRAM 또는 통합 메모리로 소비자용 노트북에서 로컬 실행이 가능하여 지연 시간을 줄인다.
* 오디오 입력 지원: 미들급 모델 중 최초로 네이티브 오디오 입력을 지원한다.
* 개발자 생태계 지원: Apache 2.0 라이선스로 공개되었으며, LM Studio, Ollama, Hugging Face Transformers, llama.cpp 등 다양한 개발 도구 및 플랫폼에서 지원된다.
* 에이전트 개발 지원: Gemma Skills 리포지토리를 통해 에이전트 개발을 위한 스킬 라이브러리를 제공한다.
* MTP drafter: Multi-Token Prediction (MTP) drafter를 탑재하여 지연 시간을 감소시킨다.

시사점

Gemma 4 12B는 효율적인 통합 아키텍처와 경량화된 모델 크기를 통해 일반 소비자용 하드웨어에서도 고도화된 멀티모달 AI 기능을 구현할 수 있게 하며, 에이전트 개발의 접근성을 높인다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions