DeepSeek previews new AI model that ‘closes the gap’ with frontier models

개요

중국 AI 연구소 DeepSeek가 기존 모델의 성능을 크게 향상시킨 대규모 언어 모델(LLM) DeepSeek V4의 두 가지 미리보기 버전을 출시했습니다. V4 Flash와 V4 Pro 모델은 100만 토큰의 컨텍스트 창과 Mixture-of-Experts (MoE) 아키텍처를 특징으로 하며, 최첨단 모델과의 성능 격차를 크게 줄였다고 주장합니다.

주요 내용

* DeepSeek V4 모델 출시: DeepSeek는 V3.2 모델의 후속작인 DeepSeek V4 Flash와 V4 Pro의 미리보기 버전을 공개했습니다.
* MoE 아키텍처 및 대규모 컨텍스트 창: 두 모델 모두 Mixture-of-Experts (MoE) 방식을 사용하며, 각각 100만 토큰의 컨텍스트 창을 제공하여 대규모 코드베이스나 문서를 프롬프트에 활용할 수 있습니다.
* V4 Pro의 방대한 파라미터 수: V4 Pro 모델은 총 1.6조 개의 파라미터를 가지며, 이 중 490억 개가 활성 상태로, 이는 현재 공개된 오픈 웨이트 모델 중 가장 큰 규모입니다. V4 Flash는 2840억 개의 파라미터(130억 개 활성)를 보유합니다.
* 성능 향상 및 격차 축소: DeepSeek에 따르면 V4 모델은 아키텍처 개선으로 V3.2 대비 효율성과 성능이 향상되었으며, 추론 벤치마크에서 최첨단 모델과의 격차를 거의 좁혔습니다.
* 경쟁 모델과의 비교: V4-Pro-Max 모델은 공개된 경쟁 모델들의 추론 벤치마크를 능가하며, 일부 작업에서는 OpenAI의 GPT-5.2 및 Gemini 3.0 Pro를 능가한다고 주장합니다. 코딩 벤치마크에서는 GPT-5.4와 유사한 성능을 보입니다.
* 최첨단 모델과의 차이: 지식 테스트에서는 OpenAI의 GPT-5.4 및 Google의 Gemini 3.1 Pro와 같은 최첨단 모델에 비해 약간 뒤처지는 경향을 보이며, 이는 약 3~6개월의 개발 시차를 시사합니다.
* 텍스트 전용 지원: V4 Flash와 V4 Pro는 텍스트만 지원하며, 오디오, 비디오, 이미지를 처리하는 폐쇄형 소스 모델과는 차이가 있습니다.
* 경쟁력 있는 가격: V4 모델은 기존 최첨단 모델 대비 훨씬 저렴한 가격으로 제공됩니다. V4 Flash는 입력 100만 토큰당 $0.14, 출력 100만 토큰당 $0.28이며, V4 Pro는 입력 100만 토큰당 $0.145, 출력 100만 토큰당 $3.48로 책정되어 경쟁 모델들을 하회합니다.

시사점

DeepSeek V4 모델의 출시는 고성능 AI 모델의 접근성을 높이고, 오픈 웨이트 모델의 발전을 가속화할 잠재력을 지닙니다. 특히 저렴한 가격과 대규모 컨텍스트 창은 다양한 산업 분야에서의 LLM 활용 가능성을 넓힐 것으로 예상됩니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions