硬件革新：谷歌的智能體第八代 TPU

今天在 Google Cloud Next 大會上，谷歌正式推出了谷歌第八代定制張量處理單元（TPU），即將推出兩種專為訓練和推理設計的不同架構：TPU 8t 和 TPU 8i。這兩款晶片旨在驅動谷歌的定制超級電腦，支持從前沿模型訓練、智能體（Agent）開發到大規模推理任務的一切需求。多年來，TPU 一直是包括 Gemini 在內的領先基礎模型的動力源泉。第八代 TPU 將在訓練、服務和智能體工作負載方面提供更強的規模、效率和能力。

在這個智能體時代（Agentic Era），模型必須能夠推理問題、執行多步工作流，並在持續的循環中從自身行動中學習。這對基礎設施提出了全新的要求。TPU 8t 和 TPU 8i 是與 Google DeepMind 合作設計的，旨在應對最苛刻的 AI 工作負載，並大規模適應不斷演進的模型架構。

TPU 為許多機器學習超級計算組件設定了標準，包括定制數值、液冷技術、定制互連等，而谷歌的第八代 TPU 是十多年研發的結晶。原始 TPU 設計背後的關鍵見解至今仍然適用：通過將矽片與硬體、網路和軟體（包括模型架構和應用需求）進行定制化協同設計，谷歌可以實現顯著更高的能效和絕對性能。

谷歌很高興看到十年的創新轉化為現實世界的突破。今天，像 Citadel Securities 這樣具有開拓精神的組織正在挑戰可能性的極限，選擇 TPU 來驅動其前沿的 AI 工作負載。

兩款晶片，應對當下

硬體開發週期遠長於軟體。在設計每一代 TPU 時，谷歌需要考慮產品上市時的技术和需求。幾年前，谷歌預見到隨著前沿 AI 模型在生產環境中的大規模部署，客戶對推理的需求將大幅增長。隨著 AI 智能體的興起，谷歌確定社群將從分別針對訓練和服務需求進行專門優化的晶片中受益。

TPU 8t 專為大規模、計算密集型的訓練任務而生，具備更大的計算吞吐量和更強的擴展頻寬。TPU 8i 專為對延遲最敏感的推理工作負載設計，擁有更高的記憶體頻寬。這至關重要，因為大規模智能體之間的交互會放大哪怕是微小的低效。

重要的是，兩款晶片都可以運行各種工作負載，但專業化分工釋放了顯著的效率和提升。

TPU 8t：訓練領域的性能猛獸

TPU 8t 的目標是將前沿模型的開發週期從數月縮短至數週。通過平衡最高的計算吞吐量、共享記憶體和片間頻寬，以及最佳的能效和有效計算時間，谷歌打造了一個系統，其單個機架（Pod）的計算性能比上一代提升了近 3 倍，從而實現更快的創新，確保谷歌的客戶繼續保持行業領先。

巨大規模：單個 TPU 8t 超級機架（Superpod）現可擴展至 9,600 個晶片和 2PB 的共享高頻寬記憶體，片間頻寬是上一代的兩倍。該架構可提供 121 ExaFlops 的算力，並允許最複雜的模型利用單個巨大的記憶體池。
最大化利用率：通過集成 10 倍速的儲存存取，並結合 TPUDirect 技術直接將數據拉入 TPU，TPU 8t 確保了端到端系統的最高利用率。
近線性擴展：谷歌全新的 Virgo 網路結合 JAX 和谷歌的 Pathways 軟體，意味著 TPU 8t 可以在單個邏輯集群中為多達一百萬個晶片提供近乎線性的擴展。

除了原始性能外，TPU 8t 還通過一套全面的可靠性、可用性和可服務性（RAS）功能，將目標定在超過 97% 的「有效吞吐量」（Goodput），即衡量有用、生產性計算時間的指標。這些功能包括橫跨數萬個晶片的即時遙測、自動檢測並繞過故障 ICI 鏈路而不中斷任務，以及在無需人工干預的情況下圍繞故障重新配置硬體的光路切換（OCS）。

每一次硬體故障、網路停頓或檢查點重啟，都是集群未進行訓練的時間。在前沿訓練規模下，每一個百分點的提升都可以轉化為數天的活躍訓練時間。

TPU 8i：推理引擎

在智能體時代，用戶期望能夠提問、委託任務並獲得結果。TPU 8i 旨在處理許多專業智能體之間的複雜、協作和迭代工作，這些智能體通常在複雜的流程中「成群」協作，為最具挑戰性的任務提供解決方案和見解。谷歌重新設計了堆疊，通過四項關鍵創新消除了「等待室」效應：

打破「記憶體牆」：為了防止處理器處於閒置狀態，TPU 8i 配備了 288 GB 的高頻寬記憶體和 384 MB 的片上 SRAM，是上一代的 3 倍，從而將模型的活動工作集完全保留在晶片上。
Axion 驅動的效率：谷歌將每台伺服器的物理 CPU 主機數量翻倍，遷移到了谷歌定制的基於 Arm 的 Axion CPU。通過使用非統一記憶體架構（NUMA）進行隔離，谷歌優化了整個系統的卓越性能。
擴展 MoE 模型：針對現代混合專家（MoE）模型，谷歌將互連（ICI）頻寬翻倍至 19.2 Tb/s。全新的 Boardfly 架構將最大網路直徑減少了 50% 以上，確保系統作為一個內聚、低延遲的單元運行。
消除延遲：谷歌全新的片上集合加速引擎（CAE）可卸載全局操作，將片上延遲降低多達 5 倍，從而最大限度地減少滯後。

這些創新使性效比比上一代提高了 80%，讓企業能夠以同樣的成本服務近兩倍的客戶量。

為 Gemini 協同設計，對所有人開放

第八代 TPU 也是谷歌協同設計理念的最新體現，每一個規格都是為了解決 AI 最大的障礙而打造。

Boardfly 拓撲結構專為當今最強大的推理模型的通信需求設計。
TPU 8i 中的 SRAM 容量是根據生產規模下推理模型的 KV 快取佔用空間量身定制的。
Virgo 網路矩陣的頻寬目標源自萬億參數規模訓練的並行性需求。

此外，這兩款晶片首次均在谷歌自研的 Axion ARM 架構 CPU 主機上運行，使谷歌能夠針對性能和效率優化整個系統，而不只是晶片本身。

兩個平台均支持原生 JAX、MaxText、PyTorch、SGLang 和 vLLM（這些都是開發者已經在使用中的框架），並提供裸機存取權限，讓客戶能夠直接存取硬體，而無需承擔虛擬化開銷。包括 MaxText 參考實現和用於強化學習支持的 Tunix 在內的開源貢獻，為從能力開發到生產部署提供了關鍵路徑。

規模化的能效設計

在當今的數據中心，電力而非晶片供應已成為主要的約束條件。為了解決這個問題，谷歌在整個堆疊優化了效率，集成了功率管理系統，可根據即時需求動態調整功耗。TPU 8t 和 TPU 8i 的每瓦性能比上一代（Ironwood）提升了多達兩倍。

但在谷歌，效率不僅僅是一個晶片級的指標，它還是一個從矽片貫穿到數據中心的系統級承諾。例如，谷歌將網路連接與計算集成在同一塊晶片上，顯著降低了在 TPU 機架間移動數據的電力成本。甚至谷歌的數據中心也是與 TPU 協同設計的。通過硬體和軟體的創新，谷歌使數據中心每單位電力提供的計算能力比五年前提高了六倍。

TPU 8t 和 TPU 8i 延續了這一軌跡。兩者均由谷歌的第四代液冷技術支持，該技術能維持風冷無法企及的性能密度。通過擁有從 Axion 主機到加速器的全堆疊，谷歌可以以主機和晶片獨立設計時根本無法實現的方式，優化系統級的能源效率。

智能體時代的基础設施

每一次重大的計算轉型都需要基礎設施的突破，智能體時代也不例外。基礎設施必須進化，以滿足自主智能體在推理、規劃、執行和學習的持續循環中運作的需求。

TPU 8t 和 TPU 8i 是谷歌對這一挑戰的回答：兩種專門的架構旨在重新定義 AI 的可能性，從構建最強大的 AI 模型，到完美編排的智能體集群，再到管理最複雜的推理任務。兩款晶片將於今年晚些時候正式上市，並可作為谷歌 AI 超級電腦（AI Hypercomputer）的一部分使用。AI 超級電腦將專門構建的硬體（計算、儲存、網路）、開放軟體（框架、推理引擎）和靈活消耗模式（編排、集群管理和交付模式）整合進一個統一的堆疊中。

智能體計算將重新定義可能性。谷歌很高興宣布谷歌為推動這一轉型而進行不懈創新的最新成果：TPU 8i 和 8t。