구글, 4배 빨라진 Trillium AI 칩 공개! 제미니 2.0의 성능 비밀 밝혀졌다!


News Image
구글의 최신 AI 하드웨어 및 소프트웨어 발전을 다룬 "Google’s new Trillium AI chip delivers 4x speed and powers Gemini 2.0"라는 제목의 VentureBeat 기사는 다음과 같은 주요 내용을 제공합니다.

Trillium TPU의 주요 포인트
- 구글은 여섯 번째 세대 텐서 처리 장치(TPU)인 트릴리움을 일반에 공개했습니다. 이 새로운 TPU는 이전 모델인 TPU v5e에 비해 상당한 개선이 이루어졌습니다.
- 트릴리움은 훈련 성능에서 4배 향상된 결과를 보여주고, 추론 처리량에서 최대 3배 증가를 달성했습니다.

성능과 효율성
- 트릴리움 TPU는 칩당 최대 계산 성능이 4.7배 증가하고, 에너지 효율성이 67% 향상되었습니다. 또한 높은 대역폭 메모리(HBM) 용량이 두 배로 증가하고, 칩 간 연결(ICI) 대역폭이 개선되어 대규모 AI 모델에 매우 효율적입니다.

확장 능력
- 트릴리움은 단일 고대역폭 저지연 포드에서 최대 256개의 칩까지 확장할 수 있으며, 수백 개의 포드로 확장되어 구글의 주피터 데이터 센터 네트워크 내에서 수만 개의 칩을 연결할 수 있습니다. 이 구조는 대규모 AI 훈련 작업에 가까운 선형 확장을 가능하게 합니다.

응용 프로그램 및 사용 사례
- 트릴리움은 구글의 새로운 AI 모델, 제미니 2.0을 훈련하는 데 사용되었습니다. 이 칩은 밀집 대규모 언어 모델(LLM) 및 전문가 혼합(MoE) 아키텍처 모델 훈련에 특히 적합합니다.

AI 하이퍼컴퓨터와의 통합
- 트릴리움은 구글 클라우드의 AI 하이퍼컴퓨터의 핵심 구성 요소입니다. 이 슈퍼컴퓨터 아키텍처는 성능 최적화된 하드웨어, 개방형 소프트웨어, 최신 기계 학습 프레임워크를 통합하고 있습니다. 이 설정은 XLA 컴파일러와 JAX, PyTorch, TensorFlow와 같은 인기 있는 프레임워크에 대한 최적화를 포함하고 있습니다.

고객 피드백
- 초기 사용자인 AI21 Labs는 트릴리움을 통해 성능과 효율성이 크게 향상되었다고 보고했습니다. 이로 인해 더 강력하고 접근하기 쉬운 AI 솔루션을 개발할 수 있게 되었습니다.

전반적으로 트릴리움 TPU는 AI 컴퓨팅의 큰 도약을 상징하며, 제미니 2.0과 같은 고급 AI 모델의 개발 및 배포에 필수적인 성능, 효율성 및 확장성을 제공합니다.