Google unveils two new TPUs designed for the "agentic era"

개요

Google은 AI 모델의 훈련과 추론을 분리하여 효율성을 높인 두 가지 새로운 Tensor Processing Unit(TPU)인 TPU 8t(훈련용)와 TPU 8i(추론용)를 발표했습니다.

주요 내용

* TPU 8t: AI 모델 훈련 시간을 단축하는 데 특화되어 있으며, 이전 세대 대비 훈련 성능을 크게 향상시켰습니다.
* 최대 9600개의 칩과 2 페타바이트의 고대역폭 메모리를 갖춘 업데이트된 서버 클러스터(Pods)를 지원합니다.
* 최대 100만 개의 칩을 단일 논리 클러스터로 확장할 수 있습니다.
* GPU당 121 FP4 EFlops의 컴퓨팅 성능을 제공하며, 이는 이전 세대 대비 약 3배 증가한 수치입니다.
* Volt당 더 많은 유용한 연산을 제공하며 "goodpute" 속도는 97%에 달합니다.
* 불규칙한 메모리 접근 처리, 하드웨어 오류 자동 처리, 실시간 텔레메트리 기능을 개선하여 훈련 시간을 늘립니다.
* TPU 8i: AI 모델의 추론 모드에서 효율적으로 작동하도록 설계되었으며, 특히 여러 특화된 에이전트를 실행할 때 지연 시간을 줄이는 데 중점을 둡니다.
* 마지막 세대 TPU 대비 더 큰 1152개 칩 규모의 Pod에서 실행됩니다.
* 각 TPU 8i 칩의 온칩 SRAM을 384MB로 3배 늘려 더 긴 컨텍스트 창을 가진 모델의 속도를 높입니다.
* TPU당 하나씩, 총 2개의 TPU마다 Google의 자체 Axion ARM CPU 호스트를 사용하며, 이는 이전 세대의 x86 CPU 대비 효율성을 높입니다.
* 효율성 및 전력 소비:
* 전반적으로 이전 세대 Ironwood 대비 와트당 두 배의 성능을 제공합니다.
* 네트워킹과 컴퓨팅을 단일 칩에 통합하고 효율적인 Pod 레이아웃을 통해 전력당 컴퓨팅 성능을 6배 증가시켰습니다.
* 액티브 제어 밸브를 사용하여 작업 부하에 따라 물 흐름을 조절하는 4세대 액체 냉각 설정을 적용하여 효율성을 높였습니다.
* 개발자 지원: JAX, MaxText, PyTorch, SGLang, vLLM 등 개발자들이 기존에 사용하는 프레임워크를 지원합니다.

시사점

Google의 새로운 TPU 8t 및 TPU 8i는 AI의 "에이전트 시대"에 맞춰 훈련 및 추론 효율성을 극대화함으로써 AI 모델 개발 및 운영 비용 절감과 성능 향상에 기여할 것으로 기대됩니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions