因應人工智慧運算背後帶動效能與節能平衡需求,AWS進一步簡化其資料中心架構
AWS在此次re:Invent 2024活動上宣布在其資料中心導入全新設計,藉此因應人工智慧運算發展背後帶動效能與節能之間平衡需求,另外也透過進一步簡化資料中心架構設計降低整體碳排放量。
過去18年以來,AWS持續精進其資料中心設計,並且在其中13年內推動搭載GPU加速的人工智慧工作負載伺服器,進而在全球累積達數百萬名活躍用戶,同時也有數十萬名用戶藉由AWS雲端平台建構人工智慧與機器學習服務,更以Bedrock服務建構自動生成式人工智慧應用內容,使得AWS也必須持續更新其資料中心設計。
而在此次re:Invent 2024期間提出設計,AWS表示將在新資料中心設計導入簡化配電與機械結構,並且使其使用可靠性達99.9999%,同時也讓機架可能因配電問題影響運作的數量減少89%。
另一方面,AWS也透過簡化配電降低過往因電力轉換、分配系統等節點造成耗電、故障等問題,同時也減少機架備用電源與散熱風扇配置數量,並且利用負壓等方式排散伺服器運作產生熱氣,進而降低整體耗電問題。
為了配合AWS新推出的客製化人工智慧推論處理器Trainium2,以及諸如NVIDIA以Blackwell顯示架構打造的GB200 NVL72運算方案,AWS也提出全新結合氣冷與水冷散熱設計,使其人工智慧推論系統能更穩定運作,同時也能以最大限度使用電力推動運算效能,並且能使AWS減少原本必須預留電力,讓電力使用效率可大幅提升。
配合新散熱設計,AWS預期可在未來2年內讓伺服器機架執行功率密度提高6倍,並且在後續進一步提高3倍。而在此設計調整之後,AWS預期可讓每個運算節點的工作負載額外提高12%執行效能,並且以更少伺服器即可實現相同執行算力。
其他更新,則包含採用全新控制系統,並且能透過即時分析、自動故障排除,讓伺服器能維持最佳運作表現,使得其可靠性維持達99.9999%。而藉由減少機械複雜結構,更可讓資料中心整體運作能耗降低46%,同時也透過調整資料中心建築使用混凝土成分與低碳鋼材質,並且使用再生柴油驅動備用發電設施,使其整體潛藏碳排放量可降低35%。
因應新資料中心設計,AWS更與透過人工智慧技術開發先進材料的Orbital Materials達成多年合作協議,預計在2025年底協助AWS建造更低碳排放的數據中心,而本身也會採用Amazon SageMaker HyperPod訓練人工智慧模型,並且在AWS雲端平台對外開源提供使用,讓更多業者能以此研究電池、半導體相關先進材料與製程技術。
更多Mashdigi.com報導:
AWS擴大自製處理器應用範疇,在伺服器導入更多因應人工智慧執行需求的客製化設計