Liquid AI reveals 8B-A1B MoE trained on 38T
개요
Liquid AI가 새롭게 공개한 LFM2.5-8B-A1B 모델은 소비자용 하드웨어에서 빠르고 안정적인 Tool Calling을 위해 설계된 Edge 모델로, 이전 모델 대비 확장된 컨텍스트 창, 대규모 사전 학습, 강화 학습 및 향상된 토큰화 효율성을 특징으로 한다.
주요 내용
* LFM2.5-8B-A1B 모델 특징:
* 이전 LFM2-8B-A1B 모델에서 발전했으며, 128K의 컨텍스트 창, 38T 토큰으로 확장된 사전 학습, 대규모 강화 학습을 적용했습니다.
* 어휘(vocabulary) 크기를 두 배로 늘려 비 라틴 언어에 대한 토큰화 효율성을 개선했습니다.
* Tool Calling 체이닝, 작업 수행 능력, 보급형 노트북에서도 원활하게 실행되는 성능을 제공합니다.
* AA-Omniscience Index에서 이전 모델 대비 53.62점 향상된 -24.70점을 기록하며 환각(hallucination) 감소 및 정확도 향상을 보였습니다.
* Instruction Following, Math, Agentic Workflow 등 다양한 벤치마크에서 경쟁력 있는 성능을 보여주며, 특히 Tau² Telecom 벤치마크에서 강점을 보입니다.
* 주요 변경 사항 및 기술적 개선:
* 컨텍스트 확장: 컨텍스트 창이 32,768에서 128,000 토큰으로 확장되어 더 긴 문서를 처리하고 장기간 추론이 가능해졌습니다.
* 어휘 확장 및 토큰화 효율성 개선: 어휘 크기를 65,536에서 128,000으로 확장하여 힌디어, 태국어, 베트남어, 인도네시아어, 아랍어 등 비 라틴 스크립트 토큰화 효율성이 크게 향상되었습니다.
* 추론 전 사고 과정 명시: LFM2.5-8B-A1B는 Reasoning-only 모델로서 최종 답변 전에 명시적인 사고 과정(chain of thought)을 생성하여 품질을 향상시키면서도 속도를 유지합니다.
* 환각(Hallucination) 감소:avg@k 기반 보상을 사용하여 지식 범위를 벗어나는 쿼리에 대한 중립(abstention)을 강화하고 불확실성을 명확히 표현하도록 학습되었습니다.
* 둠 루프(Doom Loops) 감소: 장기 추론 시 반복적인 행동을 유발하는 토큰을 식별하고 대안 확률을 재분배하는 선호도 최적화(preference optimization) 단계를 추가했습니다.
* 성능 및 호환성:
* 소비자용 하드웨어(CPU 및 GPU)에서 빠르고 효율적인 추론 속도를 제공하며, llama.cpp, MLX, vLLM, SGLang 등 다양한 추론 프레임워크를 지원합니다.
* M5 Max 칩에서 253 tokens/s, Ryzen AI Max+ 395에서 146 tokens/s의 속도로 노트북 환경에서도 즉각적인 응답을 제공합니다.
* 단일 NVIDIA H100 GPU에서 18.5K output tokens/s의 높은 처리량을 달성합니다.
* iOS 및 Android 배포를 위한 LEAP, Apple Silicon 최적화를 위한 MLX, GPU 가속 서빙을 위한 vLLM 및 SGLang 등 다양한 환경에서 활용 가능합니다.
* LocalCowork 데모:
* LFM2.5-8B-A1B 모델을 사용하여 단일 노트북 환경에서 67개의 도구를 활용하는 데모를 선보였으며, 클라우드 및 API 키 없이 로컬에서 실행되어 데이터 프라이버시를 보장합니다.
시사점
LFM2.5-8B-A1B 모델은 개인화된 AI 비서 구현 및 클라우드 연결 없이 로컬 장치에서 완전한 프라이버시를 유지하며 복잡한 작업을 수행할 수 있는 길을 열어주며, Edge AI 분야의 발전에 기여할 것으로 기대됩니다.
댓글
GitHub Discussions