Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model

개요

Needle은 Gemini 3.1을 기반으로 2600만 개의 파라미터를 가진 "Simple Attention Network" 모델로 축소(distilled)되었으며, 개인용 기기에서의 AI 활용을 목표로 한다.

주요 내용

* 모델 아키텍처: Needle은 12개의 인코더 레이어와 8개의 디코더 레이어로 구성되며, Attention 메커니즘, RoPE (Rotary Positional Embedding), Gated Residual Blocks, ZCRMSNorm 등을 활용한다.
* 성능: 2000억 토큰에 대해 16개의 TPU v6e에서 27시간 동안 사전 학습되었고, 20억 개의 단일 샷 함수 호출 데이터셋으로 45분간 사후 학습되었다. 프로덕션 환경에서는 6000 toks/sec의 prefill 속도와 1200 toks/sec의 decode 속도를 제공한다.
* 목표 및 활용: 휴대폰, 시계, 안경 등 소비자 기기에 적합한 초소형 AI 모델을 재정의하는 것을 목표로 한다. FunctionGemma-270m, Qwen-0.6B 등과 비교했을 때 단일 샷 함수 호출에서 우수한 성능을 보이지만, 대화형 환경에서는 더 큰 모델이 유리할 수 있다.
* 오픈 소스: 모델의 가중치(weights)와 데이터셋 생성 방식은 Cactus-Compute/needle에서 완전히 공개되어 있으며, Mac/PC에서도 로컬 파인튜닝이 가능하다.
* 사용 편의성: 웹 UI를 통해 사용자가 직접 도구를 테스트하고 버튼 클릭만으로 파인튜닝할 수 있으며, Git clone 후 설정 파일을 통해 quickstart 가이드라인을 제공한다. Python SDK를 통해 모델 로드, 체크포인트 로딩, 텍스트 생성, 도구 호출 등을 수행할 수 있다.

시사점

Needle은 LLM의 기능을 소형화하여 개인용 기기에서의 AI 적용 가능성을 확장하며, 오픈 소스로 공개되어 개발자들이 로컬 환경에서 실험하고 커스터마이징할 수 있는 기회를 제공한다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions