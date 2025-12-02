AWS宣布推出搭載旗下3nm製程AI晶片Trainium3的Amazon EC2 Trn3 UltraServers伺服器，目標解決當前AI模型訓練與推論時面臨的成本與算力瓶頸，官方數據顯示，其運算效能較前一代設計提升高達4.4倍，能源效率更提高40%，並且試圖透過更具競爭力的使用價格，讓更多企業能負擔得起訓練大規模AI模型所需的基礎設施。

▲AWS搭載旗下3nm製程AI晶片Trainium3的Amazon EC2 Trn3 UltraServers伺服器從即日起正式上線

單機配置144顆Trainium3晶片、延遲低於10微秒

Amazon EC2 Trn3 UltraServer的核心在於其高度整合架構，單一系統可容納多達144顆Trainium3晶片，提供高達362 FP8 PFLOPs的AI算力，並且從即日起正式上線。

▲Amazon EC2 Trn3 UltraServer在單一系統可容納多達144顆Trainium3晶片，提供高達362 FP8 PFLOPs的AI算力

▲以台積電3nm製程打造的AI晶片Trainium3

為了應對分散式運算的通訊瓶頸，AWS導入新的NeuronSwitch-v1與增強版Neuron Fabric網路技術，將晶片間的通訊延遲壓低至10微秒 (μs)以下，對於需要大量數據流動的代理式AI (Agentic AI)或混合專家模型 (MoEs) 尤其重要。

AWS更指出，透過EC2 UltraClusters 3.0設計，客戶可連接數千台UltraServers伺服器，將其擴展至具備100萬顆Trainium晶片數量的超大運算叢集，規模更是前一代的10倍。

▲搭載旗下3nm製程AI晶片Trainium3的Amazon EC2 Trn3 UltraServers伺服器

▲Amazon EC2 Trn3 UltraServers伺服器對比前一代Amazon EC2 Trn2 UltraServers伺服器，在相同功耗表現下可處理5倍Token量

Decart、Anthropic率先採用，成本降低50%

在實際應用案例中，AWS列舉了多家合作客戶的成效。

其中，專攻生成式AI影片的Decart表示，使用Trainium3進行即時影片生成的推論速度快了4倍，而成本僅為原先使用GPU加速運算的一半。而諸如Anthropic、Karakuri、Ricoh (理光)等客戶，也透過Trainium晶片運算能力成功降低高達50%的訓練與推論成本。

另一方面，AWS更透露與Anthropic合作的「Project Rainier」計畫更新狀況，該計畫已連接超過50萬顆Trainium2晶片，成為全球最大的AI運算叢集之一，規模更是Anthropic訓練上一代模型時的五倍。

▲AWS與Anthropic合作的「Project Rainier」計畫已連接超過50萬顆Trainium2晶片，成為全球最大的AI運算叢集之一，規模更是Anthropic訓練上一代模型時的五倍

預告Trainium4將支援NVIDIA NVLink Fusion互連技術，打破陣營藩籬

在展望未來時，AWS更確認正在開發下一代Trainium4晶片，除了預期效能將再提升6倍 (在FP4運算時)、記憶體頻寬提高4倍、記憶體容量可擴增2倍之外，更說明此晶片將支援NVIDIA NVLink Fusion高速互連技術。

意味著未來Trainium4、Graviton處理器將能與NVIDIA GPU在通用的MGX機架內無縫協同運作，打破了過往自研晶片與GPU陣營壁壘分明的界線，為客戶提供更具彈性的混合架構選擇。

▲AWS確認正在開發下一代Trainium4晶片，除了預期效能將再提升6倍 (在FP4運算時)、記憶體頻寬提高4倍、記憶體容量可擴增2倍之外，更說明此晶片將支援NVIDIA NVLink Fusion高速互連技術

