現今的先進模型，包括 Google 的 Gemini、Veo、Imagen，以及 Anthropic 的 Claude，都在 Tensor Processing Unit（TPU）上進行訓練和提供服務。對許多企業而言，其重心正從訓練模型，轉移到如何促成與模型之間有著實用且靈敏的互動。模型架構的不斷演進、代理式工作流程 (agentic workflows) 的興起，加上對運算需求近乎指數型的增長，共同定義了這個全新的 AI 推論時代（age of inference）。特別是那些需要通用運算 (general-purpose compute) 和機器學習加速 (ML acceleration) 之間高度協作與調度的代理式工作流程，正為客製化晶片和垂直協同最佳化（vertically co-optimized）的系統架構創造新的機會。

我們為此轉變已做足準備，現在，我們宣布推出三款基於客製化晶片打造的新產品，為推論和代理式工作負載提供卓越的效能、更低的成本並實現嶄新功能：

Ironwood：我們的第七代 TPU，將在未來幾週內正式推出。Ironwood 專為最嚴苛的工作負載而打造：從大規模模型訓練、複雜的增強學習（RL），到高容量、低延遲的 AI 推論和模型服務。與 TPU v5p 相比，它的峰值效能提升了 10 倍；與 TPU v6e（Trillium）相比，每顆晶片在訓練與推論工作負載上的效能提升超過 4 倍，使 Ironwood 成為我們迄今最強大、最節能的客製化晶片。

全新 ARM® 架構 Axion 執行個體：N4A，我們迄今最具成本效益的 N 系列虛擬機器，現已推出預覽版。相較於當前同等級的 x86 虛擬機器，N4A 提供了高達 2 倍的性價比。

我們也很高興地宣布 C4A metal，我們首款 ARM® 架構裸機執行個體（bare-meta instance），即將推出預覽版。

Ironwood 和這些全新的 Axion 執行個體，是 Google 長期耕耘客製化晶片創新的最新篇章，其他還包括 TPU、YouTube 的影片編碼單元（Video Coding Units, VCU），以及適用於行動裝置的 Tensor G5 自研晶片。在每個案例中，我們打造這些處理器的目的都是為了實現效能突破，而這一切唯有透過深度的系統級協同設計，將模型研究、軟體和硬體開發整合在一起才可能達成。十年前我們就是這樣打造出第一代 TPU，而 TPU 進而在八年前造就了驅動當今絕大多數 AI 的核心架構──Transformer 的誕生。這也影響了我們近期的發展，例如 Titanium，以及我們自 2020 年以來已在十億瓦（GW）的規模上部署，並達到 99.999% 機群運作時間（fleet-wide uptime）的先進液冷解決方案。

Ironwood：從模型訓練到全球規模推論的最快路徑

Ironwood 在初期就獲得非常熱烈的迴響，像是 Anthropic 即深受 Ironwood 卓越的性價比所吸引，這項優勢加速了他們將龐大的 Claude 模型從訓練推向服務數百萬用戶的進程。實際上，Anthropic 計畫使用多達 100 萬個 TPU：

Anthropic 運算主管 James Bradbury：「我們的客戶，從《財星》（Fortune）世界五百強企業到新創公司，都仰賴 Claude 來處理他們最重要的工作。隨著需求持續指數型成長，我們在推動 AI 研究和產品開發的邊界擴展時，也在增加我們的運算資源。Ironwood 在推論效能和訓練可擴展性上的提升，將幫助我們高效擴展，同時滿足客戶期望的速度和可靠性。」

不論企業規模大小，Ironwood 正在各產業中被廣泛使用：

Lightricks 研究團隊總監 Yoav HaCohen：「Lightricks 的使命是定義開放式創意的尖端，而這需要能在大規模上消除摩擦與成本的 AI 基礎架構。我們利用 Google Cloud 的 TPU 及其龐大的晶片間互連網路（Interchip Interconnect, ICI），為我們領先的開源多模態生成模型 LTX-2 實現了突破性的訓練效率。現在，隨著進入推論時代，這個早期測試讓我們對 Ironwood 充滿期待。我們相信 Ironwood 將使我們能夠為全球數百萬客戶創造更細膩、更精確、更高擬真度的圖像和影片生成。」

Essential AI 基礎架構負責人 Philip Monk：「在 Essential AI，我們的使命是打造強大且開放的頂尖模型。我們需要大規模且高效的擴展能力，而 Google Cloud 的 Ironwood TPU 正好滿足了這一需求。這個平台極易上手，讓我們的工程師能立即發揮其強大能力，並專注於加速 AI 的突破。」

系統級設計最大化推論效能、可靠性與成本效益

TPU 是 AI Hypercomputer 的關鍵組件，AI Hypercomputer 是我們的整合式超級運算系統，它匯集了運算、網路、儲存和軟體，以提高系統級的效能和效率。根據 IDC 最近的一份報告，導入 AI Hypercomputer 的客戶平均達成了 353% 的三年投資報酬率、降低 28% 的 IT 成本，並使 IT 團隊效率提升 55%。

Ironwood TPU 將幫助客戶進一步突破規模和效率的極限。部署 TPU 時，系統會將每個獨立的晶片相互連結，形成一個 Pod，使這些互連的 TPU 能作為單一運作的運算單元。透過 Ironwood，我們可以在單一個 superpod 中擴展至 9,216 個晶片，並透過突破性的 ICI 網路達到 9.6 TB/s 的傳輸速度。這種大規模的連接性使數千個晶片能夠快速相互通訊，並存取高達 1.77 PB 的共享高頻寬記憶體（HBM），即便是對性能要求最高的模型資料瓶頸也能克服。

在如此大規模下，服務需要持續穩定的可用性。這就是為什麼我們的光學電路交換（Optical Circuit Switching, OCS）技術能作為一個動態、可重組的結構，能夠即時繞過中斷，恢復工作負載，同時讓服務保持運行。當需要更多效能時，Ironwood 可以在 Pod 間擴展，形成數十萬個 TPU 的叢集。

AI Hypercomputer 的優勢：軟硬體協同設計，實現更快、更高效的成果

在這套硬體之上，是一個協同設計的軟體層架構，我們的目標是最大化 Ironwood 強大的運算處理能力和記憶體效能，並使其在整個 AI 生命週期中都能夠易於使用。

為了提高系統效率和營運能力，我們很高興地宣布，TPU 客戶現在可以受益於 Google Kubernetes Engine（GKE）中的 Cluster Director 功能。這包括進階維運（advanced maintenance）、拓撲感知（topology awareness），可用於實現智慧調度和高彈性叢集。

在模型預前訓練和後續訓練方面，我們也分享了高效能、開源的 LLM 框架 MaxText 新的強化功能，使其更容易實作最新的訓練和強化學習優化技術，例如監督式微調（Supervised Fine-Tuning, SFT）功能和生成式增強策略優化（Generative Reinforcement Policy Optimization, GRPO）。

在推論方面，我們最近宣布了 vLLM 中對 TPU 的強化支援，允許開發者僅需進行少量配置更改，即可在 GPU 和 TPU 之間靈活切換、或同時運行兩者。GKE Inference Gateway 則能在 TPU 伺服器之間進行智慧負載平衡，將生成首個詞元的時間（time-to-first-token, TTFT）降低高達 96%，並降低高達 30% 的服務成本。

我們的軟體層使 AI Hypercomputer 能夠在訓練、微調和大規模提供 AI 工作負載服務時，同步展現高效能和高可靠性。歸功於整個技術堆疊的深度整合──從資料中心範圍的硬體優化到開放軟體和託管服務──Ironwood TPU 是我們迄今最強大、最節能的 TPU。深入了解我們的軟硬體協同設計方法，請參閱此處。

Axion：重新定義通用運算

在建構和提供現代化應用程式的過程中，既需要高度專業化的加速器，也需要強大且高效的通用運算能力。這正是我們打造 Axion 的願景──目標透過我們客製化、基於 Arm Neoverse® 的 CPU，為日常工作負載提供卓越的效能、成本效益和能源效率。

今天，我們擴展了 Axion 產品組合，推出：

N4A（預覽版）：我們的第二款通用 Axion 虛擬機器，特別適合用於微服務、容器化應用程式、開源資料庫、批次處理、資料分析、開發環境、實驗測試、資料準備，以及支援 AI 應用所需的網頁服務作業。點擊此處深入了解 N4A。

C4A metal（預覽版）：我們首款基於 Arm 的裸機執行個體，為專業工作負載，例如 Android 開發、車用系統、具嚴格授權要求的軟體、規模化測試平台、或執行複雜模擬的應用所提供專用的實體伺服器。深入了解 C4A metal 請參閱此處。

隨著今天的發布，Axion 產品組合現已包含三種強大的選項：N4A、C4A 和 C4A metal。C 系列和 N 系列的搭配組合，將讓你無需在效能或特定工作負載需求上妥協，即可降低營運總成本。

Axion 內建的高效能，使其成為支援現代 AI 工作流程的理想選項。當像 Ironwood 這樣的專業加速器負責處理複雜的模型伺服任務的同時，Axion 則在運行的核心骨幹層面表現出色：支援高容量的資料準備、擷取，以及運行託管企業智慧應用程式的應用程式伺服器的。Axion 已經為客戶帶來實質的影響：

Vimeo 託管與交付營運資深總監 Joe Peled：「在 Vimeo，我們長期仰賴自訂機器類型（Custom Machine Types）來有效管理我們龐大的影片轉檔平台。我們在新型 Axion N4A 執行個體上的初步測試結果令人非常驚豔，解鎖了新的效率水平。與同等級的 x86 VM 相比，我們的核心轉檔工作負載效能提高了 30%。這意味著我們能在無需改變營運模式的情況下，改善我們的單位經濟效益，並以更高的利潤擴展服務。」

ZoomInfo 基礎架構首席架構師 Sergei Kore：「在 ZoomInfo，我們營運著一個效率至上的龐大的數據智慧平台。我們的核心資料處理流程，對於向客戶提供即時洞察至關重要，這些流程廣泛運行在 GKE 中的 Dataflow 和 Java 服務上。在我們對 N4A 執行個體的預覽測試中，測得這些關鍵工作負載的性價比相較於 x86 的同類產品提升了 60%。這使我們能夠更有效率地擴展平台，並更快地為客戶提供更多價值。」

Rise 雲端與軟體架構師 Or Ben Dahan：「遷移到 Google Cloud 的 Axion 產品組合為我們帶來了關鍵的競爭優勢。我們將運算消耗降低了 20%，同時透過 C4A 執行個體（例如我們的供應方平台 SSP 後端服務）保持低延遲和穩定性。此外，C4A 使我們能夠利用 Hyperdisk，為我們的狀態性工作負載（stateful workloads） 提供精確所需的 IOPS，而不受執行個體大小的限制。這種靈活性為我們帶來兩全其美的優勢──能為客戶贏得更多廣告競價，同時顯著提高我們的利潤。我們正在測試 N4A 系列，運行例如 API 轉送服務等一些需要最高靈活性的關鍵工作負載。我們很高興分享，目前在生產環境中運行的數個應用程式，其 CPU 消耗量比我們先前的基礎架構減少了 15%，進一步降低了成本，同時確保合適的執行個體能支援所需的工作負載特性。」

AI 與日常運算的強大組合

要在這個模型架構、軟體和技術不斷演進的時代中脫穎而出，你的企業需要結合專為模型訓練和服務打造的 AI 加速器，以及能支援包含 AI 應用日常工作負載的高效的通用型 CPU。

無論你是將 Ironwood 和 Axion 搭配使用，或是將它們與 AI Hypercomputer 上提供的其他運算選項混合搭配，這種系統級的解決方案都能提供最極致的靈活性和能力，以應對最嚴苛的工作負載。

立即註冊以測試 Ironwood、Axion N4A 或 C4A metal。

◆Ironwood TPU 初期的部署將集中於美國，預計將在 2026 年中將其擴展至全球各個地區。

