Our eighth generation TPUs: two chips for the agentic era

개요

Google은 AI 에이전트 시대를 위한 맞춤형 AI 칩인 8세대 Tensor Processor Unit(TPU)으로 TPU 8t와 TPU 8i를 공개했습니다.

주요 내용

* TPU 8t: 대규모 모델 학습에 최적화되어 있으며, 이전 세대 대비 최대 3배의 컴퓨팅 성능과 2배의 인터칩 대역폭을 제공합니다. 9,600개의 칩으로 확장 가능한 단일 TPU 8t 슈퍼팟은 2페타바이트의 공유 고대역폭 메모리를 지원하며, 121 엑사플롭스의 컴퓨팅 성능을 제공합니다. 또한 10배 빨라진 스토리지 액세스와 TPUDirect을 통합하여 시스템 활용도를 극대화합니다. JAX 및 Pathways 소프트웨어와 결합된 새로운 Virgo Network를 통해 최대 100만 개의 칩까지 거의 선형적인 확장을 지원하며, 실시간 텔레메트리, 자동 장애 감지 및 재라우팅, Optical Circuit Switching(OCS)과 같은 RAS 기능을 통해 97% 이상의 생산적 컴퓨팅 시간(goodput)을 목표로 합니다.
* TPU 8i: 저지연 추론에 특화되어 있으며, 이전 세대 대비 80% 향상된 달러당 성능을 제공하여 동일한 비용으로 거의 두 배의 고객 볼륨을 처리할 수 있습니다. 288GB의 고대역폭 메모리와 384MB의 온칩 SRAM을 갖추어 모델의 활성 작업 세트를 온칩에 유지하여 "메모리 벽" 문제를 해결합니다. Google의 맞춤형 Axion Arm 기반 CPU를 활용하여 성능을 최적화했습니다. Mixture of Experts(MoE) 모델을 위해 인터커넥트(ICI) 대역폭을 19.2Tb/s로 두 배로 늘렸으며, Boardfly 아키텍처는 네트워크 지연 시간을 50% 이상 줄입니다. 새로운 온칩 Collectives Acceleration Engine(CAE)은 전역 연산을 오프로드하여 온칩 지연 시간을 최대 5배까지 줄입니다.
* 하드웨어 및 소프트웨어 통합: 두 칩 모두 Google의 Axion Arm 기반 CPU 호스트에서 실행되어 시스템 전체의 성능과 효율성을 최적화합니다. 네이티브 JAX, MaxText, PyTorch, SGLang, vLLM을 지원하며, 가상화 오버헤드 없이 하드웨어에 직접 액세스할 수 있는 베어 메탈 액세스를 제공합니다. MaxText 및 Tunix와 같은 오픈 소스 기여도 지원합니다.
* 전력 효율성: 이전 세대(Ironwood) 대비 최대 2배의 와트당 성능을 제공하며, 칩 레벨뿐만 아니라 데이터 센터 레벨에서도 효율성을 최적화합니다. 4세대 액체 냉각 기술을 사용하여 고밀도 컴퓨팅을 지원합니다.
* AI 에이전트 시대 지원: TPU 8t와 8i는 추론, 계획, 실행, 학습의 연속 루프에서 작동하는 AI 에이전트의 요구 사항을 충족하도록 설계되었습니다. 이 칩들은 Google의 AI Hypercomputer의 일부로 제공되며, 맞춤형 하드웨어, 오픈 소프트웨어, 유연한 소비 모델을 통합합니다.

시사점

8세대 TPU는 AI 모델 개발 및 추론 워크로드의 성능과 효율성을 크게 향상시켜, AI 에이전트 시대를 위한 차세대 컴퓨팅 인프라를 제공하며, 더 스마트하고 효과적인 AI 도구 개발을 지원할 것입니다.

원문 읽기 →
원문을 불러오는 중...

댓글

GitHub Discussions