【葉德輝專欄】超級電腦生命中的一天

在田納西州東部的山區,一台名為 Frontier 的破紀錄機器正在為科學家提供前所未有的機會來研究從原子到星系的一切。(In the hills of eastern Tennessee, a record-breaking machine called Frontier is providing scientists with unprecedented opportunities to study everything from atoms to galaxies.) 陳索菲亞Sophia Chen發表在最新一期權威期刊《自然》(Nature)的<世界上最快的超級電腦生命中的一天>( A day in the life of the world’s fastest supercomputer)說,這台名為 Frontier 的超級電腦覆蓋的面積比兩個籃球場還要大。
他們像一隻被燙傷的狗一樣運行機器
世界上最快的超級電腦是一台名為 Frontier 的計算機,但即使是這台擁有近 50,000 個處理器的高速電腦也有其限制。在四月一個陽光明媚的星期一,它的功耗急劇上升,因為它試圖跟上世界各地科學團體要求的工作量。
Frontier 所在的田納西州橡樹嶺國家實驗室的科學主任 Bronson Messer 表示,電力需求高峰約為 27 兆瓦,足以為大約 10,000 棟房屋供電。梅塞爾語氣中帶著自豪,用當地術語來描述超級電腦的工作效率:“他們像一隻被燙傷的狗一樣運行機器。”
Frontier 以創紀錄的速度處理數據,超過了 100,000 台筆記型電腦同時工作的速度。當它在 2022 年首次亮相時,它第一個突破了超級計算的百億億次速度障礙,即每秒執行百億億次浮點運算的能力。橡樹嶺的龐然大物是數十年來推動大型超級電腦發展的全球趨勢中最新的排行榜冠軍(儘管更快的電腦可能存在於軍事實驗室或其他秘密設施中)。
尖端電腦晶片如何加速人工智慧革命
但速度和規模對於 Frontier 的主要目的(突破人類知識的界限)來說是次要的。 Frontier 擅長創建模擬,捕捉大尺度模式和小尺度細節,例如微小的雲滴如何影響地球氣候變暖的速度。研究人員正在使用超級電腦創建從亞原子粒子到星系的一切尖端模型。一些專案正在模擬蛋白質以幫助開發新藥、模擬湍流以改進飛機引擎設計以及創建開源大語言模型(LLM) 以與 Google 和 OpenAI 的人工智慧 (AI) 工具競爭。
研究人員從世界各地登入 Frontier。 2023 年,這台超級電腦在 18 個國家擁有 1,744 個使用者。而且,Oak Ridge 預計,Frontier 用戶將在 2024 年根據機器上執行的計算發表至少 500 篇論文。
「Frontier 與詹姆斯韋伯太空望遠鏡沒有什麼不同,」橡樹嶺國家實驗室的生物物理學家 Dilip Asthagiri 說。 “我們應該將其視為一種科學儀器。”
機器內部Frontier 的大腦位於一個倉庫
Frontier 的大腦位於一個倉庫大小的房間裡,裡面充滿了穩定的電子嗡嗡聲,聲音輕柔得足以進行交談。房間裡有 74 個相同的亮黑色機架,總共容納 9,408 個節點。這些都是超級電腦的主力。每個節點由四個圖形處理單元 (GPU) 和一個電腦處理單元 (CPU) 組成。
建造這台超級電腦的惠普企業公司的技術人員 Corey Edmonds 表示,工程師團隊持續監控機器是否有故障跡象。住在橡樹嶺的埃德蒙茲今天正在前沿號上進行維護手術。修復其中一個節點上損壞的連接器後,他將注射器中的灰色導熱油脂擠到銀色矩形上——該節點的四個 GPU 之一。這有助於 GPU 快速散熱並保持涼爽。
Frontier 的速度主要歸功於 GPU 的廣泛使用。這些晶片最初是為電腦遊戲玩家渲染逼真的圖形而開發的,現在透過機器學習應用推動人工智慧的進步。
「它們跑得非常快,」梅塞爾說。 “他們也愚蠢至極。” GPU 擅長同時處理多個數字,但除此之外就沒什麼了。他說:「它們可以一遍又一遍地做一件事,」這使得它們對於超級電腦計算的快速工作很有用。
研究人員必須自訂他們的程式碼才能利用 Frontier 的 GPU。梅塞爾將首次使用 Frontier 的科學家比作郊區司機徵用賽車。 「它有方向盤、油門踏板和煞車,」他說。 “但是試著讓一名普通司機駕駛一級方程式賽車,讓他們從這裡開到那裡。”
大科學去年批准了 131 個項目
研究人員獲得使用 Frontier 的機會並不容易。梅塞爾和三位同事將於今年四月的星期一聚集在一起,評估該機器的研究提案。平均而言,他們批准了大約四分之一的提案,去年批准了 131 個項目。特別是,申請人需要證明他們的專案可以利用超級電腦的整個系統。
他們提供的最常見的分配約為 500,000 個節點小時,相當於整個機器連續運行三天。他們最大的分配是四倍。梅塞爾表示,在 Frontier 上獲得時間的研究人員獲得的計算資源比在其他地方獲得的計算資源多約十倍。
如今,他的團隊每週都會發放約 20,000 個節點小時的小額獎勵。許多專案都利用 Frontier 的能力來同時對各種空間和時間尺度進行建模。 Frontier 每年總共有約 6500 萬個節點時可用。
例如,科學家希望使用 Frontier 來模擬原子級精確的生物過程,例如溶液中的蛋白質或核酸與細胞其他部分的相互作用。


有了 Frontier,氣候模型也變得更精確
今年 5 月,Asthagiri 和 Oak Ridge 的高效能運算工程師 Nick Hagerty 使用 Frontier 模擬了含有超過 1550 億個水分子的立方體液態水滴。 “這是為了推動機器,”Asthagiri 說。阿斯哈吉里說,模擬的立方體大約是人類頭髮寬度的十分之一,該模型是有史以來最大的原子級模擬之一。
這些最初的模擬正在朝著更雄心勃勃的目標邁進,即對從原子向上的整個細胞進行建模。在短期內,研究人員希望模擬細胞器並利用它們為實驗室實驗提供資訊。他們還致力於將 Frontier 的生物材料高解析度模擬與使用 X 射線自由電子雷射的超快成像相結合,以加速發現。
有了 Frontier,氣候模型也變得更精確。 2023年,橡樹嶺氣候科學家馬特·諾曼和其他研究人員使用超級電腦運行了分辨率為3.25公里的全球氣候模型。 Frontier 的運算能力對於他們在此解析度下創建長達數十年的預測是必要的1。該模型還納入了雲複雜運動的影響,這種影響發生在更精細的分辨率下。 「Frontier 全體人員共同努力才做到這一點,」諾曼說。
他說,為了達到相同的分辨率,同時考慮雲的影響,模型在其他計算機上的運行速度會慢得多。這種限制是氣候科學家尋求預測條件的主要障礙,因為雲的行為影響全球能量的流動。
超級運算可望大幅提升速度
對於一個適用於天氣和氣候預測的模型,它需要每天至少運行一個模擬年。該模型的 Frontier 每天可以模擬 1.26 年,這個速度將使研究人員能夠創建比以前更準確的 50 年預測。
Frontier 也為宇宙尺度帶來了更高的分辨率。賓州匹茲堡大學的天文物理學家艾文施奈德正在使用超級電腦來研究銀河系大小的星系如何隨著年齡的增長而演化。 Frontier 的星系模型跨越四個數量級,最大可達約 10 萬光年(30,660 秒差距)大小的大型星系結構。在 Frontier 之前,她能以相當的分辨率模擬的最大結構是矮星系,質量約為矮星系的五十分之一。
施耐德模擬了超新星如何導致氣體從這些星系洩漏2。隨著時間的推移,數千到數百萬次超新星爆炸共同釋放出大量氣體,最終離開星系3。由於這種氣體是新恆星誕生的原料,因此隨著星系的老化,恆星的形成速度會減慢。 Frontier 允許 Schneider 包含比其他電腦更熱的氣體的影響。她的模擬表明,目前的宇宙學模型淡化了這種熱氣體在星系演化中的作用。
人工智慧研究人員也迫切需要時間來開發 Frontier 的 GPU,該 GPU 因其在訓練基於神經網路的架構(例如支援 ChatGPT 的 Transformer 模型)方面的作用而聞名。 Frontier 擁有近 38,000 個 GPU,在人工智慧研究領域佔據著獨特的公共部門角色,而該領域原本由工業界主導。
目前任職於費耶特維爾阿肯色大學的經濟學研究員 Nur Ahmed 和他的同事在去年的一篇評論中強調了人工智慧在學術界和工業界之間的差距4。 2021 年,96% 最大的人工智慧模型來自工業界。平均而言,產業模型的規模是學術模型的近 30 倍。這種差異在金錢投資方面也很明顯。 2021 年,美國非國防機構提供了 15 億美元支援人工智慧研究。
Google 花了 1.91 億美元來訓練 Gemini Ultra
艾哈邁德說,自從商業大型語言模型發布以來,差距只會進一步擴大。例如,訓練 OpenAI 的 GPT-4 的運算資源估計花費了 7,800 萬美元,而 Google 花了 1.91 億美元來訓練 Gemini Ultra。這種投資鴻溝導致工業界和學術界研究人員可用的計算資源明顯不對稱。
艾哈邁德和他的合著者寫道,工業界正在突破人工智慧基礎研究的界限,這可能會為該領域帶來問題。研究人員表示,產業主導地位可能會導致基礎研究的缺乏,而基礎研究不能立即獲利,並導致人工智慧技術的開發忽視低收入社區的需求。在一項未發表的研究中,艾哈邁德分析了 600 萬篇同行評審文章和 3200 萬篇專利引用,發現「平均而言,業界往往忽視南半球邊緣化人群的一些擔憂」。
氣候科學家推動使用世界上最大的超級電腦來建立更好的地球模型
更重要的是,許多模型都存在性別和種族偏見的問題,正如在一些基於人工智慧的商業人臉辨識系統中所發現的那樣。艾哈邁德表示,學術界可以充當審計員來評估人工智慧模型的風險,但要做到這一點,他們需要獲得與產業同等規模的運算資源。
這就是 Frontier 的用武之地。馬裡蘭大學帕克分校的電腦科學家阿比納夫·巴特勒 (Abhinav Bhatele) 表示,這將有助於大學研究人員與公司競爭。 「學術界人士訓練類似規模模型的唯一方法是他們能夠獲得像 Frontier 這樣的資源,」他說。
Bhatele 正在使用 Frontier 開發開源作為行業模型的平衡。 「通常,當公司訓練模型時,他們會保留模型的專有性,並且不會發布模型權重,」Bhatele 說。 “透過這項開放研究,我們可以將這些模型免費提供給任何人使用。”在接下來的一年裡,他和他的團隊的目標是培訓一系列不同規模的,他們將使這些模型及其權重開源。他們還免費提供用於訓練模型的軟體。 Bhatele 表示,透過這種方式,Frontier 在人工智慧「民主化」領域的運動中發揮著至關重要的作用,讓更多的人參與科技的開發。
比賽繼續進行
距離 Frontier 所在的房間只有幾扇門,它的前身仍在努力為世界各地的科學家工作。這台名為 Summit 的機器在 2018 年至 2019 年間保持了世界速度記錄,目前是全球公共機器中速度第九快的超級電腦。 Summit 擁有長長的黑色鍍鉻機架,與 Frontier 類似,但冷卻系統聲音更大,工作速度是 Frontier 的八分之一。
Summit 的歷史預示著 Frontier 的未來。 Frontier 於 2022 年首次登上榜首,並且可能不久之後就會放棄這一位置。排名第二的超級電腦 Aurora 位於伊利諾伊州阿貢國家實驗室,透過進一步優化,預計在某個時刻將超過 Frontier 的性能。勞倫斯利弗莫爾國家實驗室的 El Capitan 計劃於今年稍後在加州實驗室上線,預計最終也將擊敗 Frontier。另外還有 Jupiter,這是德國的一台百億億次超級計算機,將於今年稍後首次亮相。
不斷加劇的地緣政治緊張局勢使排名進一步複雜化。 Frontier 的頭銜來自於其在 TOP500 組織半年度排名中的排名。它根據世界超級電腦在涉及求解一組密集線性方程式的基準任務上報告的性能對它們進行評級。
美國和中國不會分享計算資產的信息
但計算專家表示,美國和中國很可能不會公開分享有關其計算資產的信息,特別是因為兩國之間的緊張關係日益加劇。華盛頓特區智庫大西洋理事會的政策研究員凱文·克萊曼表示:“在超級計算領域存在一種競賽的想法。”事實上,2022年,美國總統拜登政府對向中國出口半導體實施了管制,特別是出於對中國超級運算能力的擔憂。
在超級計算領域,緊張局勢幾年前就開始了。值得注意的是,2016年,中國上榜超級電腦數量超過美國。 「這在美國引起了很大的焦慮,」克萊曼說。 “許多美國政策制定者說,’我們如何才能趕上這個名單?’”
目前,在今年6月發布的TOP500排行榜上,兩國擁有超級電腦數量最多。美國擁有 168 台計算機,而中國有 80 台。事實上,自去年11月以來,目前名單上的中國機器數量已經下降,當時有104台機器。中國沒有報告任何新超級電腦的結果。
超級電腦消耗大量能源
Oak Ridge 已經在規劃 Frontier 的繼任者,稱為 Discovery,其計算速度應該是三到五倍。這將是長達數十年的速度追求中的最新成果(請參閱「速度記錄」)。 Frontier比2014年最快的電腦天河二號A快35倍,比2004年最快的超級電腦地球模擬器快33,000倍。
研究人員渴望更快的速度。她說,例如,更大的電腦將使施耐德能夠以更高的分辨率模擬星系。它還可以為科學家提供更大的計算預算。
但工程師面臨持續的挑戰:超級電腦消耗大量能源,而未來的機器可能需要更多能源。因此,研究人員正在繼續推動能源效率的提高。 Frontier 的效率是 Summit 的四倍多,很大程度上是因為它是在環境溫度下通過水冷卻的,這與 Summit 使用冷凍水不同。 Frontier 的總能耗中約有 3-4% 用於冷卻,而 Summit 的比例為 10%。
能源效率一直是建立更快超級電腦的關鍵瓶頸
多年來,能源效率一直是建立更快超級電腦的關鍵瓶頸。 「我們本可以在 2012 年建造一台百億億次超級計算機,但為其提供動力的成本太高了,」Messer 說。 “我們需要多一兩個數量級的電力才能為其供電。”
當橡樹嶺工廠的夜幕降臨時,Frontier 樓層的走廊空無一人,只剩下骨幹人員。在超級電腦的控制室中,康納·坎寧安 (Conner Cunningham) 負責照顧前沿號 (Frontier) 過夜。從晚上 7 點到早上 7 點,他的工作是確保超級電腦在處理來自世界各地的研究人員的任務時不會出現任何麻煩。他使用十多個監視器來關注 Frontier,這些監視器顯示全球網路安全威脅和建築物的安全攝影機鏡頭。角落的電視靜音顯示當地天氣,提醒他即將到來的暴風雨可能會中斷電力供應。
但大多數夜晚都很安靜,坎寧安可以在辦公桌上學習線上電腦科學學位。他會進行幾次巡查,以檢查現場是否有任何意外情況,但這項工作基本上是被動的。
「這有點像消防員,」他說。 “如果發生任何事情,你需要有人監視。”他買了四個墨西哥捲餅和一些百事可樂來維持他的輪班生活。他今晚不會睡覺——邊境也不會。