十年磨一劍,英偉達能否掌控人工智能的未來?

【劃重點】
目前97.4%的人工智能加速器部署的都是英偉達GPU芯片,英偉達在人工智能算法訓練市場上佔據“近100%”的份額。
英偉達高管強調這不是誤打誤撞,公司在進軍人工智能市場方面一直非常注重策略性。
英偉達仍主導谷歌發明的人工智能行業標準MLPerf基準測試。
英偉達之所以要收購ARM,是想要在邊緣推理芯片方面獲得更多優勢。
業內人士認為英偉達在隱藏GPU複雜性方面做得非常出色。
英偉達斥資數千萬美元打造人工智能超算是為了吸引行業頂尖人才。

目前英偉達的GPU主導著人工智能芯片領域。但十年過去,越來越多的企業開始利用人工智能來從收集的海量數據尋找規律,而很多機構和組織也在向深度學習研究投入巨額資金。許多初創企業表示,單靠GPU已經落伍,快速發展的人工智能領域需要新的架構。加之物聯網生成的海量數據撲面而來,英偉達將如何掌控人工智能的未來?

以下為文章正文:

十年磨一劍,英偉達能否掌控人工智能的未來?
十年磨一劍,英偉達能否掌控人工智能的未來?

英偉達到底是如何從顯卡製造商發展到主宰人工智能芯片領域的?這個故事似乎和貓有關係。現任英偉達首席科學家的比爾·戴利(Bill Dally)在2010年曾與斯坦福大學同事、計算機科學家吳恩達吃過一次早餐。吳恩達當時正和谷歌合作開發一個項目。戴利回憶道,“他正試圖在互聯網上找貓。他當時沒有這麼說,但這就是他正在做的。”

吳恩達當時正在谷歌旗下的Google X實驗室從事研究項目,試圖開發出一個能夠自主學習的神經網絡。這個神經網絡播放YouTube上的1000萬段視頻,並學會如何識別人臉、身體和貓。但吳恩達實現這一點用了幾千個CPU芯片。“我當時說,'我打賭我們只用幾個GPU就能做到,'”戴利回憶。當時圖形圖像處理器(GPU)主要用於處理3D渲染等更密集的工作負載,這使得它們在人工智能方面比CPU效果更好。

戴利求助於英偉達深度學習現任研究主管布萊恩·卡坦扎羅(Bryan Catanzaro),希望實現這一想法。結果他做到了。他們只用了12個GPU,就證明GPU的並行處理能力在訓練吳恩達的人工智能識別模型時比CPU更快更高效。

但卡坦扎羅想讓大家知道的是,英偉達深耕人工智能並不只是源自那次偶然的早餐。事實上,早在2008年加入英偉達之前,卡坦扎羅還是伯克利大學的研究生時就已經在開髮用於人工智能的GPU了。他表示:“英偉達目前所擁有的市場地位絕非偶然。”

英偉達深度學習現任研究主管布萊恩·卡坦扎羅(Bryan Catanzaro)
英偉達深度學習現任研究主管布萊恩·卡坦扎羅(Bryan Catanzaro)

不論如何,英偉達已經在人工智能芯片領域佔據了主導地位,關於公司何時開始以及如何實現這一目標的說辭似乎已無關緊要。目前英偉達的主要營收來源仍然是遊戲顯卡,但上一財年公司用於數據中心的GPU銷售額攀升至67億美元。2019年,在亞馬遜雲服務(AWS)、谷歌、阿里巴巴微軟Azure這四大雲服務商的數據中心中,97.4%的人工智能加速器中部署的都是英偉達GPU芯片。市場研究公司Cambrian AI Research分析師卡爾·弗羅因德(Karl Freund)表示,英偉達在人工智能算法訓練市場上佔據“近100%”的份額。在全世界500強超級計算機中,近70%使用的也是英偉達GPU。幾乎所有的人工智能里程碑都少不了英偉達的芯片。吳恩達的YouTube視頻貓識別系統、DeepMind開發的圍棋冠軍AlphaGo、OpenAI的語言預測模型GPT-3都是在英偉達的硬件上運行。可以說,英偉達GPU成了人工智能研究人員的立足點。

儘管英偉達取得了成功,但卡坦扎羅仍然對有關英偉達是誤打誤撞從遊戲領域進入人工智能領域的說法很不滿。“我發誓,我讀過的每一個故事幾乎都是這樣的:GPU碰巧在人工智能方面表現出色,英偉達通過向新市場出售現有芯片暫時到手了筆意外之財,很快它們就會被初創公司所取代。”卡坦扎羅說,“但10年來,英偉達在進軍人工智能市場方面一直非常注重策略性。”

十年過去,顛覆現有市場的時機已經成熟。越來越多的企業開始利用人工智能來從收集的海量數據尋找規律,而很多機構和組織也在向深度學習研究投入巨額資金。德勤分析師科斯蒂·佩里科斯(Costi Perricos)表示,人工智能將成為各國競相爭奪的焦點。與此同時,深度學習模型的規模和復雜性都在不斷增加,需要硬件能提供更多算力。

十年磨一劍,英偉達能否掌控人工智能的未來?
十年磨一劍,英偉達能否掌控人工智能的未來?

OpenAI的GPT-3就是其中最極端的例子。這個深度學習系統可以自動生成人們可理解的文本。整個系統由1750億個參數及變量組成,計算成本約為460萬美元。隨後,GPT-3被擁有1.6萬億參數的谷歌語言模型所超越。為了提高精度,人工智能係統往往需要更高效的硬件來處理更多參數和數據,但同時也要防止人工智能本身成為更大的環境災難。丹麥研究人員表示,訓練GPT-3所需的能量相當於汽車行駛70萬公里的碳排放量。

人們需要更多的人工智能芯片,也需要更好的人工智能芯片。儘管英偉達的早期研發工作在業內領先一步,但挑戰者們正在競相追趕。谷歌於2015年開始製造自家的人工智能芯片;亞馬遜在2016年收購了以色列芯片設計公司Annapurna Labs,從去年開始將數字助理Alexa的大腦換成自家的Inferentia機器學習芯片;百度旗下的崑崙芯片最近估值達到了20億美元;高通在2019年宣布推出一款人工智能專用芯片Cloud AI 100;IBM正在研究一種低能耗人工智能芯片設計;AMD收購賽靈思,專注於人工智能數據中心;英特爾在2019年為其至強數據中心CPU添加了人工智能加速功能。此外,英特爾先是在2016年以4.08億美元的價格收購了神經網絡芯片公司Nervana,又在2019年以20億美元收購人工智能芯片製造商Habana Labs。在過去的幾年裡,Graphcore、SambaNova、Cerebras、Mythic AI、Blaize和TensTorrent等初創公司陸續發布或開始測試人工智能芯片。

但全世界仍處於人工智能領域的早期階段。吳恩達的貓是十年前才計算出來的;業內大多數初創公司只有幾年的歷史。隨著智能物聯網設備開始一場機器對機器的革命,更多的數據集將會流動起來,所有人的觀點都集中在同一件事上:如何掌控人工智能芯片的未來。

打開人工智能大門的GPU

機器學習是一種完全不同的計算工作負載,需要用不那麼精確的大量數據完成大量數學運算。傳統的高性能計算是將多個系統並在一起,構建出超級計算機來處理科學模擬或金融建模等複雜工作負載。這些任務通常用高精度的64位數據完成計算。相比之下,人工智能計算也需要龐大的計算基礎設施,但所使用的數據並沒有那麼精確,只有16位甚至是8位,這有些類似於超現實圖像和上世紀80年代像素化遊戲之間的區別。人工智能芯片初創公司Cerebras首席執行官安德魯·費爾德曼(Andrew Feldman)表示:“數據處理基本上很簡單,但也很複雜。”

人工智能芯片可以是任何針對谷歌TensorFlow或Facebook的PyTorch等機器學習工作負載進行過優化的處理器。在訓練或運行深度學習模型時,人工智能芯片不一定要完成所有的計算工作,主要是當作加速器來處理最密集的工作負載。例如,英偉達封裝的人工智能係統DGX A100就用8個安培A100 GPU當作加速器,此外還有一個128核的AMD CPU。

人工智能並不是什麼新鮮事,但之前人們缺少讓深度學習模型成為現實的計算能力,這讓研究人員花時間等待硬件的進步。另一家製造人工智能芯片的初創公司SambaNova聯合創始人兼首席執行官Rodrigo Liang表示:“GPU打開了人工智能的大門。”

一年一度的ImageNet計算機視覺挑戰賽讓研究人員相互競爭,開發能夠識別圖像或物體的算法。2012年,多倫多大學研究人員亞歷克斯·克里熱夫斯基(Alex Krizhevsky)基於GPU的深度學習系統擊敗了其他參賽者。到2015年,所有在ImageNet中排名靠前的參賽者用的都是基於GPU硬件的算法。

這讓深度學習研究呈現爆炸式增長的局面。英偉達的技術讓深度學習處理速度提高了20倍以上。但英國芯片初創公司Graphcore聯合創始人在公司剛剛成立時卻一度找不到投資者。“我們從風投那裡經常聽到的一句話是:'什麼是人工智能?'”該公司聯合創始人兼首席技術官西蒙·諾爾斯(S imo n Knowles)回憶起2015年去加州尋求融資的經歷時這樣說。“令人驚訝的是,幾個月後,也就是2016年初,一切都變了。那時每個人都熱衷於人工智能,”諾爾斯說。“然而,他們對芯片硬件卻沒有那麼感興趣。”新的芯片架構當時被認為沒有必要,英偉達已經佔據了整個行業。

但是2016年5月,谷歌改變了一切。Cerebras的費爾德曼稱谷歌做出了一個“誇張的戰略決策”,宣布穀歌已經為人工智能應用自行開發芯片。這些所謂張量處理單元(TPU)的芯片就是為了與穀歌TensorFlow機器學習編程框架協同工作。Graphcore的諾爾斯表示,此舉向投資者發出了一個信號,即新的人工智能芯片設計或許有市場。“突然間所有的風投都在想:那些瘋狂的英國人現在在哪兒?”諾爾斯說。從那之後,Graphcore拿到了7.1億美元的融資。

英偉達的競爭對手們認為,GPU是為圖形圖像處理而非機器學習設計的,儘管其強大的處理能力意味著比CPU更勝任人工智能任務。但由於系統優化的局限性和軟件層的複雜性,它們的市場主導地位只能維持這麼長的時間。“英偉達在隱藏GPU複雜性方面做得非常出色,”Graphcore聯合創始人兼首席執行官奈傑爾·圖恩(Nigel Toon)表示。“GPU之所以有效,是因為他們開發的軟件庫、框架並進行優化,隱藏了計算層面的複雜性。對於英偉達來說,這是一項非常艱鉅的任務。”

但拋開GPU的話,可能需要從頭開始設計擁有全新架構的人工智能芯片。谷歌的TPU芯片是針對特定工作負載設計的專用集成電路;Cerebras開發的則是晶圓級引擎,這種巨型芯片要比其他芯片大56倍;IBM和BrainChip則是以人腦為模型開發神經形態芯片;而Mythic和Graphcore生產的是智能處理單元(IPU),但設計有所不同。

但卡坦扎羅認為,許多芯片只是人工智能加速器的變體。他說:“我們可以說GPU、TPU或IPU或其他什麼,但人們只是很習慣這些字母。“我們這樣稱呼GPU是因為以前就這麼說……但GPU一直是用於加速計算的,而人們所關心的工作負載性質在不斷變化。”

有誰能和英偉達抗衡?目前英偉達仍主導MLPerf基準測試.MLPerf是深度學習芯片的黃金標準。市場研究公司Cambrian AI Research分析師卡爾·弗羅因德(Karl Freund)指出,由學術界和行業參與者設計的標杆工具MLPerf目前由谷歌和英偉達主導,但初創企業通常不會費心去完成所有這類測試,因為打造一個系統的成本最好花在別處。

每個英偉達SuperPOD內有20個DGX人工智能係統
每個英偉達SuperPOD內有20個DGX人工智能係統

英偉達在每年的MLPerf測試中都要超過谷歌的TPU。“谷歌發明MLPerf來顯示他們的TPU有多好,”英偉達解決方案架構和工程主管馬克·漢密爾頓(Marc Hamilton)說,“黃仁勳說,只要每次跑MLPerf測試時我們的GPU都能超過谷歌TPU就行,哪怕只有一點就很好。”

據稱,為了確保能在某次基準測試中名列前茅,英偉達將一台超級計算機所搭載的DGX系統從36個升級到96個,這需要對整台設備重新佈線。為了盡快完工,工程師們直接剪斷了各種線纜,漢密爾頓說整套線纜價值100萬美元。這種瘋狂行為凸顯出基準測試的刺激作用,但也啟發英偉達對DGX系統進行重新設計。如今的DGX系統能以20個為一組自由組合,無需重新佈線。

轉戰邊緣推理

當涉及到基準測試和組裝超級計算機時,人們總是可以通過添加更多人工智能芯片來提高性能。但對於另一種人工智能計算,也就是邊緣推理則完全不同。

2020年,英偉達宣布將以400億美元的價格收購英國芯片設計公司ARM,吸引了全世界的目光。要知道,後者的芯片架構被用於全球95%的智能手機。但業內反響並不很積極。仍持有公司股份的ARM聯合創始人赫爾曼·豪澤(Hermann Hauser)稱這是一場“災難”,可能會破壞ARM在市場中的中立地位。世界各地的監管機構都在密切關注這筆交易。

ARM只設計芯片,並將知識產權授權給芯片製造公司。如果某個人工智能芯片製造商需要一款CPU,他們可以從ARM獲得芯片設計許可,並按照自家規格進行製造。競爭對手擔心英偉達控制ARM後可能會限制相關合作,不過黃仁勳曾“明確”表示,英偉達將尊重ARM現有的開放模式。

邊緣推理芯片能夠將深度學習用於現實世界,而ARM正是這種芯片的主要設計者。英偉達收購ARM意味著可能對現有市場態勢產生巨大影響。在ARM的幫助下,英偉達可以憑藉GPU和邊緣推理方面的優勢地位在數據中心領域佔據主導地位。

什麼是邊緣推理?為了訓練和應用人工智能模型,英偉達的高性能係統會對數據進行大量處理。但在人工智能領域,還有推理這種更輕量級的任務,也就是使用訓練過的模型來解釋某些現實景象。比如無人駕駛汽車理解攝像頭看到的東西,一個智能手機應用程序掃描用戶臉部,把貓耳朵貼在自拍照上,或者一個對醫學影像進行病理分析等等。由於訓練需要巨大算力,通常會在數據中心完成;但推理可以在數據中心、也可以在邊緣設備上完成。

第一種推理在數據中心完成。當你問數字助理Alexa或Siri一個問題時,其會被傳送回亞馬遜和蘋果的服務器進行轉錄並回复。第二種推理則發生在相機、汽車或智能手機等終端用戶設備中,這被稱為邊緣計算。第二種推理需要的算力不多,但處理速度要快。

英偉達目前主導著數據中心領域的推理工作。其A100利用數據進行訓練,而推理被虛擬化到更小的迷你服務器中,在同一硬件上能同時完成50個或更多推理工作負載。這對AWS等提供人工智能服務的科技巨頭很有幫助,因為多家公司可以使用相同硬件而且不會有數據洩露的風險。在邊緣計算領域,英偉達擁有用於無人駕駛汽車的DRIVE芯片和用於現場推理的EGX芯片,但低功耗芯片並不是英偉達的專長所在。如果你曾經使用過搭載英偉達顯卡的遊戲筆記本電腦,就會發現其電池續航時間比Chromebook要短。但設計低功耗芯片是ARM最擅長的事情,這也是為什麼英偉達不惜斥資400億美元收購ARM的原因。

ARM在人工智能領域的研究主要集中在兩個方面。首先,其將軟件框架整合到現有CPU上。為了應對更密集的工作負載,ARM開發了一種名為Ethos的神經處理單元(NPU)當作人工智能加速器使用。ARM IP產品部門總裁雷內·哈斯(Rene Haas)說,使用Ethos-U55設計的設備應該很快就會上市,因為獲得該設計許可的公司已經生產出了成品芯片。

有了邊緣推理,語音助手將不再需要將用戶語音上傳到AWS或蘋果服務器進行處理,而可以基於本地智能做出響應。哈斯說:“這使得工作可以在本地設備上完成,在很多方面都有助於提高效率。”他指出,將數據在設備和雲端之間來回傳送需要消耗電池能量。

英偉達負責歐洲、中東和非洲地區(EMEA)的副總裁戴維·霍根(David Hogan)表示:“很長一段時間以來我們都在談論物聯網,但這個願景直到現在才實現。”“這種轉型是我們收購ARM的計劃核心。”

打造人工智能超級計算機

去年,英偉達解決方案架構和工程主管馬克·漢密爾頓(Marc Hamilton)花很多時間和精力打造一台價值5000多萬美元的超級計算機,這就是“劍橋1號”。搭積木般的系統設計風格讓開發“劍橋1號”變得更容易。“劍橋1號”由一排排成組的DGX人工智能係統組成,每組有20個DGX,被稱為SuperPod。而單個DGX售價19.9萬美元,堪稱一台完整的人工智能計算機,其中用8個A100芯片作為DGX計算系統核心,同時具有內存、網絡和其他功能。

漢密爾頓說,“劍橋1號”建成後將是英國最強大的人工智能超級計算機,在全世界排名第30位,但在英偉達打造的人工智能超級計算機中只能排到第五。“劍橋1號”有80個DGX A100系統,而最大的Selene超級計算機有560個。

英偉達的“劍橋1號”人工智能超級計算機
英偉達的“劍橋1號”人工智能超級計算機

雖然“劍橋1號”不是最快的,也不是最大的超級計算機,但它拿到了兩個第一。漢密爾頓稱其為世界上第一台原生雲超級計算機,有類似於AWS的區劃功能,企業能夠使用相同硬件而不會有安全漏洞或數據洩露的風險。此外,“劍橋1號”也是英偉達唯一向外部合作夥伴開放的超級計算機,各個大學機構、醫療巨頭阿斯利康、牛津納米孔和葛蘭素史克都可以在“劍橋1號”上運行自己的深度學習模型。

為什麼英偉達要打造超級計算機?一個原因是,英偉達需要超級計算機來吸引行內最優秀的人才。2016年,英偉達還沒有超級計算機,而Facebook和谷歌正在搶最好的人工智能研究員。漢密爾頓說:“這並不是因為他們付的工資更高。而是因為谷歌和Facebook在運營業務方面有成千上萬的GPU,他們可以讓人工智能研究員訪問這些GPU。”

現在,英偉達的超級計算機Selene是全球第五大計算機,僅次於日本的一台、中國的一台和美國擁有的兩台。漢密爾頓表示,這意味著,如果你是一名想要接觸到最快人工智能硬件的研究人員,完全可以來英偉達工作。

單純提高硬件算力有用嗎

在卡坦扎羅的40人實驗室裡,研究人員開髮用於英偉達自家系統的人工智能,但該實驗室也充當系統架構師的培養基地,讓他們得以了解深度學習模型未來可能如何工作。卡坦扎羅說:“如果你想為未來製造芯片,你想讓它在未來有用,你必須具備預測未來最重要的工作負載是什麼。”“如果你搞砸了,你就造錯了芯片。”芯片的設計和製造往往需要數年時間,因此這種研究很有必要。

如果開發的人工智能模型以後不在GPU上運行,或者至少不能在GPU上運行,那會怎麼樣?英偉達的戴利承認有這種可能性,但由於大多數研究人員都在研究GPU,他認為這種想法不太可能成為現實。他說:“在新模型上線之前,我們通常都聽說過它,並有機會對其進行測試,確保其在我們的GPU上運行良好。”

其他人則不同意戴利的這種說法。他們認為GPU可能影響到深度學習模型發揮全部潛力。Cerebras公司的費爾德曼說:“每個人都在根據當今的技術調整自己的模型。”“我們最高興、最興奮的事情之一,是有一群正在編寫全新模型的客戶。”他說今年Cerebras將展示所謂的“GPU不可能完成的工作”實例。費爾德曼強調,GPU根本無法完成某些人工智能工作。

Graphcore公司的圖恩則表示,研究人員早就抱怨,當今硬件已經成了絆腳石,影像人們思考更複雜的問題。圖恩說:“比如概率機器學習等想法仍然被擱置,因為目前GPU等硬件不允許這種想法向前發展。”“競爭的焦點在於英偉達能以多快速度升級GPU,還是用新的東西來實現這一點?”

麻省理工學院計算機科學和人工智能實驗室研究員尼爾·湯普森(Neil Thompson)在人工智能會議上註意到一個趨勢,研究人員暗示,計算能力的限制影響了他們的模型開發,限制了他們的選擇和數據集,因為他們無法負擔高昂成本、通過重新運行模型來解決問題。他說:“這真的很普遍。就深度學習的未來而言,這是一個非常大的問題。”

湯普森和同事分析了1058篇人工智能論文,發現機器學習對算力的需求遠遠超過硬件改進或模型訓練的效率。長此以往,系統總有一天需要花費數億甚至數十億美元來進行訓練,這還沒有算其他成本。湯普森說:“使用更多GPU的問題在於,將GPU數每增加一倍,成本就會增加一倍,由此帶來的碳排放和環境污染也會增加一倍。”

他認為,僅靠英偉達等公司的硬件解決方案都不足以阻止人工智能創新陷入困境。相反,研究員需要開發更高效的模型,更好利用現有模型。諸如稀疏性(忽略數據集中的零以節省算力)之類的想法可以提供幫助,因為這種方法可以更有條理地處理數據,只將其與相關參數進行比較。另一個想法是將人們從模型中學到的東西提煉成更輕量級的方程,只運行模型中和問題相關的部分。

如果沒有這方面的努力,人們將需要更大的數據中心。但人工智能不應局限於那些負擔得起超級計算機的人。湯普森說,在從事高端深度學習研究工作的大學中,“計算機能力較弱的大學越來越少”。“現在仍然有相當多的機構可以參與人工智能研究,但是隨著算力的增加,玩家數量越來越少。我們已經到了有些人被排除在外的地步。”

削減成本可能是初創公司擊敗現有公司贏得客戶的一種方式。AWS去年將Habana Labs的人工智能芯片添加到其云服務中,稱Habana Labs人工智能係統的運行成本要低40%。Habana Labs首席商務官埃坦·麥地那(Eitan Medina)表示:“要讓人工智能惠及所有人,而不僅僅是富人,你真的需要提高性價比。”

人工智能已經存在偏見問題,而硬件訪問方面的不平等加劇了這一問題。英偉達新興領域主管凱特·卡洛(Kate Kallot)表示:“這意味著我們觀察問題會存在片面性。”“如果你忽略了世界上很大一部分人口……那我們如何能解決世界各地的挑戰?”她表示許多人工智能研究人員正將工作轉向應對貧困和氣候危機等挑戰,但訪問硬件的問題將在很大程度上影響新興市場。

除此之外還有其他挑戰。最近芯片製造一直受到限制。歐盟最近承諾,到2030年計劃生產全球五分之一的高端芯片。今年3月,英特爾宣布計劃首次在美國開設兩家新工廠,並代工芯片。

隨著這些障礙被克服,芯片會繼續升級,人工智能將擴展到生活中的方方面面。在未來,智能不僅僅意味著聯網,還意味著嵌入人工智能。“它將無處不在,”ARM的哈斯說。“在未來幾年內,它將無處不在地出現在每一個計算應用程序中。”(皎晗)

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪