Thursday Thoughts: The Models We Can't Run
개요
최근 출시된 DeepSeek V4-Pro, DeepSeek V4-Flash, Zyphra ZAYA1-8B와 같은 최신 AI 모델들은 강력한 성능을 보여주지만, 개인 홈랩 환경에서는 아직 실행하기 어려운 제약 사항들을 가지고 있습니다.
주요 내용
* DeepSeek V4-Pro: 1.6조 개의 파라미터와 805GB의 모델 가중치(FP4+FP8 혼합)를 가지며, 이는 32GB VRAM과 64GB RAM을 갖춘 개인 시스템의 총 메모리(96GB)보다 8.4배 큽니다. GGUF 양자화 버전도 없어 로컬 실행이 물리적으로 불가능하며, 클라우드 API를 통해서만 접근 가능합니다.
* DeepSeek V4-Flash: 2840억 개의 파라미터와 130억 개의 활성화된 파라미터를 가지며, 가장 작은 GGUF 양자화 버전(Q2_K)도 96.2GB로 시스템 메모리를 초과합니다. 또한, llama.cpp에서 해당 아키텍처를 아직 지원하지 않아 커스텀 포크가 필요하며, 양자화 유지보수 커뮤니티에서 품질이 낮다고 판단하여 일부 양자화 파일을 제거한 상태입니다.
* ZAYA1-8B: 84억 개의 파라미터와 128K 컨텍스트 창을 가지며, bf16에서 약 17GB의 VRAM을 사용하여 32GB VRAM 환경에 충분히 적합합니다. 추론 벤치마크 점수도 높지만, CCA(Cross-Channel Attention)라는 새로운 아키텍처를 사용하여 llama.cpp에서 지원하지 않습니다. 현재로서는 Zyphra의 커스텀 vLLM 포크를 통해서만 실행 가능합니다.
* 로컬 추론의 현실: 32GB GPU에서 실질적으로 높은 토큰 속도(100+ tok/s)와 유용한 에이전트 성능을 얻기 위해서는 모델 가중치가 약 24~28GB 이내여야 합니다. 현재 Qwen 3.5 35B-A3B (Q4_K_XL, 22GB)가 이러한 제약 조건 내에서 가능한 성능의 상한선으로 여겨집니다.
* 로컬 실행의 세 가지 벽:
* 크기: V4-Pro는 모델 자체의 크기가 너무 커서 실행 불가능합니다.
* 양자화: V4-Flash는 양자화된 모델이 메모리에 간신히 들어가더라도 품질 저하 문제가 있습니다.
* 아키텍처 지원: ZAYA1-8B는 크기 문제는 없으나, 추론 엔진이 해당 아키텍처를 지원하지 않아 실행이 어렵습니다.
시사점
홈랩 또는 엣지 디바이스에서의 모델 배포를 고려할 때, 모델의 크기, 양자화의 실현 가능성, 그리고 사용 중인 추론 스택의 아키텍처 지원 여부를 벤치마크 전에 반드시 확인해야 합니다.
댓글
GitHub Discussions