Real-time LLM Inference on Standard GPUs: 3k tokens/s per request

Hacker News 2026년 5월 29일

tech

개요

Kog AI가 발표한 Kog Inference Engine(KIE) 기술 미리보기는 표준 데이터센터 GPU에서 초당 3,000개 이상의 토큰을 생성하는 실시간 LLM 추론 속도를 달성하여 AI 에이전트의 반복 속도 병목 현상을 해결합니다.

주요 내용

AI 에이전트의 반복 속도 개선: AI 에이전트의 순차적인 작업 흐름에서 각 단계의 응답 시간을 단축하여 전체 작업 완료 시간을 크게 줄일 수 있습니다.
추론 속도 병목 현상의 주요 원인: 단일 요청 추론 속도는 FLOPS(FLOPs)가 아닌 메모리 대역폭(Memory Bandwidth)에 의해 주로 결정되며, GPU는 이미 높은 메모리 대역폭을 가지고 있습니다.
기존 추론 스택의 비효율성: 고수준 프레임워크, 커널 분리, CPU 스케줄링 및 동기화 등으로 인해 발생하는 마이크로초 단위의 지연이 GPU의 메모리 대역폭 활용을 저해합니다.
Kog Inference Engine의 최적화 전략:
단일 커널(Monokernel) 런타임: 전체 추론 경로를 하나의 GPU 프로그램으로 실행하여 커널 경계, CPU 스케줄링 및 샘플링으로 인한 지연을 제거합니다.
KCCL(Kog Collective Communication Library): GPU 간 통신 지연 시간을 예측 가능하고 마이크로초 단위로 줄여줍니다.
Laneformer 모델 아키텍처: Delayed Tensor Parallelism(DTP)을 통해 GPU 간 통신을 유용한 계산과 겹치게 하여 병목 현상을 완화합니다.
하드웨어 인식 최적화: AMD MI300X GPU의 칩렛 토폴로지 등을 고려하여 메모리 접근 지연을 최소화합니다.
성능 측정 결과:
8x AMD MI300X GPU에서 2B 모델로 초당 3,000 토큰(요청당)을 생성합니다.
8x NVIDIA H200 GPU에서는 초당 2,100 토큰을 생성합니다.
이러한 속도는 양자화, 추측적 디코딩 등 다른 최적화 기법 없이 달성되었습니다.
대규모 MoE 모델 지원 전망: 향후 FP8/FP4 양자화 및 다중 토큰 예측 기법을 적용하여 Qwen3-Coder-Next(3B 활성 파라미터)와 같은 대규모 MoE 모델에서도 초당 1,000~5,000 토큰의 속도를 목표로 합니다.

시사점

Kog Inference Engine은 기존 데이터센터 GPU의 하드웨어 능력을 소프트웨어 최적화를 통해 최대한 활용함으로써, AI 에이전트의 성능을 결정하는 실시간 추론 속도에서 전용 추론 하드웨어와 경쟁할 수 있는 수준을 달성했습니다. 이는 AI 에이전트의 개발 및 상용화를 가속화할 수 있는 중요한 기술적 진보를 보여줍니다.

원문 읽기 →

원문을 불러오는 중...

GitHub Discussions

개요

주요 내용

시사점

댓글

관련 기사