750,000 Chips, 140 Trillion Tokens: The Math Behind DeepSeek's Permanent Price Cut
개요
DeepSeek가 V4-Pro API 가격을 75% 영구 인하한 것은 단순히 하드웨어 비용 절감이 아니라, 급증하는 수요와 제한적인 공급 사이의 격차 속에서 선제적으로 시장 점유율을 확보하기 위한 전략이다.
주요 내용
* 가격 인하 배경: 2026년 5월 22일, DeepSeek는 V4-Pro API의 입력(캐시 미스) 토큰당 가격을 12위안에서 3위안으로, 출력 토큰당 가격을 24위안에서 6위안으로, 입력(캐시 히트) 토큰당 가격을 0.1위안에서 0.025위안으로 각각 75%씩 영구 인하했다. 이는 현재 환율로 약 입력 0.44달러/백만 토큰, 출력 0.87달러/백만 토큰 수준으로, 현재 시장에서 가장 저렴한 최첨단 모델 중 하나에 해당한다.
* 표면적 요인:
* 아키텍처 효율성: V4는 1.6조 개의 파라미터를 가진 Mixture-of-Experts(MoE) 아키텍처를 사용하지만, 토큰당 활성화되는 파라미터는 일부에 불과하여 동등한 성능의 밀집(dense) 모델 대비 약 30%의 비용 우위를 가진다.
* 공급망 확장: 화웨이의 Ascend 950PR 칩이 2026년 4월 대량 생산에 들어갔으며, 연간 약 75만 개가 출하될 예정이다. DeepSeek는 V4 모델을 Ascend 아키텍처에 최적화하여 칩 비용 하락에 따른 API 가격 인하가 가능해졌다.
* 경쟁적 포지셔닝: Google Gemini, Anthropic Claude 등 서구 AI 제공업체들이 GPU 공급 부족으로 인해 속도 제한(rate limit)을 강화하는 추세를 틈타, DeepSeek는 합리적인 비용으로 무제한 사용을 제공하여 불만을 가진 개발자들을 공략한다.
* 가격 인하의 근본적 이유 (수학적 분석):
* 수요 측면: 중국의 일일 토큰 소비량은 2026년 3월 140조 개에 달했으며, 이는 2년 전 대비 1,000배 증가한 수치로, 월평균 약 13%의 성장률을 보인다.
* 공급 측면: 2026년 목표인 75만 개의 Ascend 950 칩(PR 및 DT 모델 혼합)으로 인한 최대 일일 추론 처리량은 약 51.4조 토큰에 불과하다. 이는 현재 수요(140조 토큰)의 37%에도 미치지 못하며, 6개월 후 예상 수요(약 291조 토큰) 대비로는 18%에 불과한 수준이다. 모든 칩을 추론에 100% 할당해도 현재 수요의 61%, 6개월 후 수요의 29%만 충족시킬 수 있다.
* 선제적 시장 확보 전략: DeepSeek의 가격 인하는 잉여 컴퓨팅 자원이 아닌, 미래의 Ascend 칩 공급을 기반으로 한 선제적 라우팅 약정(pre-commitment)을 통해 시장 점유율을 확보하기 위한 전략이다. 서구 경쟁사들이 공급 문제를 해결하기 전에 개발자들의 충성도를 확보하려는 것이다. 이는 2006년 AWS가 당시의 규모가 아닌 미래의 규모를 예측하여 가격을 책정한 것과 유사하다.
* 75만 개 칩의 의미: 75만 개의 칩은 공급 과잉이 아닌, 앞으로 12-18개월 동안 수요와 공급 격차(현재 3-5배)를 메우기 위한 초기 단계에 불과하다. DeepSeek는 현재의 손실을 감수하더라도 장기적으로 시장의 표준 API가 되려는 목표를 가지고 있다.
시사점
DeepSeek의 영구적인 가격 인하는 AI API 시장이 단순한 비용 경쟁을 넘어, 미래의 인프라를 선점하기 위한 '인프라 토지 쟁탈전' 단계로 진입했음을 시사하며, 개발자들은 현재의 보조금(strategic subsidy)을 활용하되 미래의 비용 구조 변화 가능성을 인지해야 한다.
댓글
GitHub Discussions