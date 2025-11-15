MLCommons稍早公布了最新一輪MLPerf Training v5.1基準測試結果，不僅是AI運算領域的年度期末考，更是NVIDIA與AMD展示次世代架構實力的競技場。NVIDIA 憑藉Blackwell Ultra架構橫掃全場，而AMD則首度以CDNA 4架構的MI350系列參與訓練測試，展現緊追在後的競爭力。

MLPerf Training v5.1結果揭曉：NVIDIA Blackwell Ultra橫掃七項測試奪冠、AMD以CDNA 4架構緊追

NVIDIA：Blackwell Ultra搭配NVFP4精度，效能翻倍

在本次測試中，NVIDIA毫無懸念地在大型語言模型 (LLM)、圖像生成等全部七項測試中拿下最快訓練速度的成績，更是唯一在所有項目中都提交結果的平台。

NVIDIA此回派出的「殺手鐧」，是其基於Blackwell Ultra GPU架構的GB300 NVL72機架級系統。為了釋放極致效能，NVIDIA在MLPerf Training歷史上首度採用NVFP4低精度運算。

根據NVIDIA官方公布數據，與上一代Hopper架構相比，Blackwell Ultra在相同GPU數量下有顯著性能提升：

• Llama 3.1 405B預訓練：效能提升4倍以上。

• Llama 2 70B LoRA微調：效能增加近5倍。

Blackwell Ultra的架構優勢，在於具備15 petaflops NVFP4 AI運算能力的全新Tensor Core，以及高達279GB的HBM3e高頻寬記憶體。此外，NVIDIA更在Llama 3.1 405B測試中動用超過5000顆Blackwell GPU，創下僅需10分鐘完成訓練的紀錄。

AMD：CDNA 4架構首秀，MI355X較前代提升2.8倍

另一方面，AMD也在此次測試中繳出亮眼成績單。這是AMD首度使用其Instinct MI350系列GPU (包含MI355X與MI350X) 進行MLPerf訓練測試。

AMD Instinct MI355X GPU採用3nm製程與CDNA 4架構，並且搭載288GB HBM3e高頻寬記憶體。在效能表現上，AMD強調其進步幅度驚人：

• 效能躍進：與前一代MI300X相比，MI355X在訓練效能上提升了2.8倍。

• Llama 2 70B LoRA微調：MI355X平台完成時間為10.18分鐘，相較於MI300X的27.97分鐘大幅縮短。

雖然在絕對速度上，NVIDIA的B200平台以9.85分鐘的成績略勝一籌，但AMD MI355X的10.18分鐘已展現出極具競爭力的表現，顯示雙方差距正在縮小。

生態系與未來佈局

本次測試也突顯了雙方生態系的擴展。其中，NVIDIA擁有華碩、Dell、廣達 (雲達)、緯穎等15個合作夥伴提交結果。AMD方面也不甘示弱，共有9家合作夥伴 (包含華碩、Dell、技鋼等) 提交了基於AMD Instinct硬體的測試結果。

展望未來，AMD在財務分析師大會 (Financial Analyst Day) 上也更新了產品路線圖，確認將維持「一年一更」的節奏：預計2026年推出MI400系列，而MI500系列則計畫於2027年登場，藉此與NVIDIA作更進一步抗衡。

