DeepSeek V4 Released: Open-Source 1.6T MoE, 1M Context, Apache 2.0 — and It's Already on the API
개요
DeepSeek V4는 1.6T 파라미터 MoE 모델, 100만 토큰 컨텍스트 길이, Apache 2.0 라이선스, 그리고 경쟁력 있는 API 가격을 제공하는 오픈소스 대규모 언어 모델(LLM)입니다.
주요 내용
* 모델 아키텍처 및 성능:
* deepseek-v4-pro (총 1.6T 파라미터, 49B 활성화) 및 deepseek-v4-flash (총 284B 파라미터, 13B 활성화) 두 가지 모델이 공개되었습니다.
* 두 모델 모두 Mixture-of-Experts (MoE) 아키텍처를 사용합니다.
* 100만 토큰 컨텍스트 길이를 지원하며, 최대 출력은 384K 토큰입니다.
* 하이브리드 어텐션 메커니즘(Compressed Sparse Attention, CSA + Heavily Compressed Attention, HCA)과 Manifold-Constrained Hyper-Connections (mHC), Muon 옵티마이저를 통해 1M 컨텍스트에서 V3.2 대비 단일 토큰 추론 FLOPs를 27% 감소시키고 KV 캐시를 10%로 줄이는 효율성을 달성했습니다.
* 32T 토큰 이상으로 FP4 + FP8 혼합 정밀도로 사전 학습되었습니다.
* deepseek-v4-flash는 deepseek-v4-pro의 축소 버전이 아니라 별도로 학습된 MoE 모델이며, flash-max 모드는 대부분의 벤치마크에서 pro 수준의 추론 성능을 보이면서도 훨씬 낮은 서빙 비용을 제공합니다.
* 오픈소스 및 라이선스:
* 모델 가중치가 Hugging Face에 Apache 2.0 라이선스로 공개되어 상업적 활용에 대한 라이선스 제약이 완화되었습니다.
* API 및 가격:
* OpenAI ChatCompletions 및 Anthropic 프로토콜을 지원하는 API가 제공됩니다.
* deepseek-v4-pro의 API 가격은 백만 토큰당 입력 $1.74 (hit), $3.48 (output)이며, deepseek-v4-flash는 백만 토큰당 입력 $0.14 (hit), $0.28 (output)으로 책정되었습니다.
* 이는 GPT-5.5, Claude Opus 4.7, Kimi K2.6 등 기존 최첨단 모델 대비 현저히 낮은 가격입니다.
* 벤치마크 성능:
* Arena AI의 코드 리더보드에서 V4-Pro (Thinking 모드)는 오픈소스 모델 중 3위를 차지했으며, 이전 DeepSeek 릴리즈 대비 상당한 Elo 점수 향상을 보였습니다.
* 중국어 SimpleQA 벤치마크에서 84.4점을 기록하여 GPT-5.5를 제외한 대부분의 독점 모델을 능가했습니다.
* Codeforces 벤치마크에서 3206점을 기록하며 GPT-5.4 (3168점)를 넘어섰습니다.
* SWE-Bench Pro에서는 Kimi K2.6 (58.6점)에 이어 55.4점을 기록했으며, 이는 실제 GitHub 이슈 해결 시나리오에서 K2.6과의 격차가 크지 않음을 시사합니다.
* 장기 컨텍스트 검색 벤치마크(MRCR 1M, CorpusQA 1M)에서는 Opus 4.6이 여전히 우위를 보였습니다.
* 기존 모델 지원 중단:
* deepseek-chat 및 deepseek-reasoner 모델은 2026년 7월 24일에 지원이 중단되며, 현재 deepseek-v4-flash로 라우팅됩니다.
시사점
DeepSeek V4는 100만 토큰 컨텍스트, 뛰어난 추론 능력, 오픈소스 접근성, 그리고 혁신적으로 낮은 API 가격을 결합하여 LLM 개발 및 배포에 있어 비용 효율성과 성능의 새로운 기준을 제시하며, 특히 중국어 처리 및 코딩 관련 작업에서 기존 모델 대비 경쟁력 있는 대안을 제공합니다.
댓글
GitHub Discussions