不止 Google vs. Nvidia:深度學習引領AI晶元大戰

本文由 【AI前線】原創,原文鏈接:http://t.cn/RHUQR7G,作者|唐杉,編輯|Natalie,Emily

AI 前線導讀:“2017 年,AI 晶元是半導體產業的亮點,而它受到的關註又遠遠超出半導體的圈子。這一年,從科技巨頭到初創公司,新老角色輪番登場,為我們上演了精彩好戲。若乾年後,當我們再回頭來看,一定可以把 2017 年作為 AI 晶元元年。”

Goole vs Nvidia • 巨頭之間的“錯位戰爭”

不止 Google vs. Nvidia:深度學習引領AI晶元大戰
不止 Google vs. Nvidia:深度學習引領AI晶元大戰

四月初,Google 公佈了一篇即將在 ISCA2017 上發表的論文:“In-DatacenterPerformance Analysis of a Tensor Processing Unit”。可以說正是這件“小事”,揭開了一部年度大戲的序幕,而它產生的深遠影響甚至可能會持續到很多年之後。其實,在 2016 年 6 月的時候 Google 就透露了自己研發了一款在雲端使用的專用 AI 晶元,TPU(Tensor Processing Unit)。Google 做 AI 晶元當然是吸引眼球的新聞,但苦於一直沒有公佈細節,大家也只能猜測和等待。因此,這篇普通的學術論文,得到了媒體的極大關註。我也在第一時間寫了一篇評論文章:“Google TPU 揭秘”,也是我的公眾號閱讀量最大的文章之一。對 TPU 高度關註的當然不只我們這些吃瓜群眾,還有 AI 晶元領域絕對的統治者 Nvidia。後面就發生了黃教主和 Google 間關於 TPU 的 Benchmark 結果是否合理的口水戰。而早在 2016 年 Google 透露 TPU 的時候,Nvidia 就多次表示它對 GPU 在 AI 運算上的統治地位沒有什麼威脅。

5 月 11 日,Nvidia GTC2017 大會,黃教主在 Keynote 上拋出了最新的 GPU Volta(GV100)。Nvidia 股票應聲大漲,媒體也是大肆報道。AI 晶元的焦點似乎又回到了 Nvidia 這一邊。

除了公佈了重量級的 Volta,GTC 上還有一個“小事件”,Nvidia 宣佈開源它的 DeepLearning Accelerator(DLA),9 月正式公開。這個發布,在黃教主的 Keynote 中是一句話帶過,但在業界引起的震動卻一點也不小。“Nvidia 為什麼要搞開源?會開源什麼東西?這個開源會不會影響眾多初創公司的前景?”對這些問題的討論一直延續到 NVDLA 真正開源之後。

沒過多久,5 月 17 日,在 Google I/O 大會上,Google 公佈了第二代 TPU,用媒體的話說“…stole Nvidia’s recent Volta GPU thunder…”。雖然 TPU2 的細節公佈的並不多,但指標確實看起來很不錯,而且具有非常好的可擴展性。唯一的遺憾就是它並不對外銷售,只能以 TPU Cloud 的方式供大家使用。

9 月下旬,Jeff Dean 這位 Google 的軟體大神參加了 HotChip 這個晶元界的重要會議,並在 Keynote “Recent Advances in Artificial Intelligence via Machine Learning and the Implications for Computer System Design”也親自介紹了 TPU 和 TPU2 的情況,把它們作為新的計算生態中重要的一環。

9 月底,NVDLA 在承諾的最後期限之前開源了 NVDLA 的部分硬體代碼,同時公佈了未來開源更多硬體和軟體的路線圖。這之後,大家對 NVDLA 也做了各種分析和討論,試圖把它玩起來。從目前來看,NVDLA 的開源好像並沒有影響眾多初創公司的融資。這個話題我們後面再說。至於 Nvidia 開源 DLA 的原因,官方的說法是讓更多人可以更容易的實現 Inference,促進 AI 的推廣,特別是在眾多嵌入式設備上的應用。但從整個開源的過程來看,這個開源的決定似乎是比較倉促的。DLA 來自 Nvidia 自動駕駛 SoC 中的一個 module,最初並不是以開源 IP 為目的而設計的。而且 9 月的開源也只公開了一部分硬體代碼和相應的驗證環境,離真正能用起來也還是有較大差距。我們不好判斷這個開源的決定是否和 Google TPU(在 Inference 上有比較大的優勢)的強勢亮相有關系。但基本的推測是,在 Deep Learning 中 Nvidia 的核心利益應該在於 Training(目前 GPU 還是 training 的最好平臺)。讓 Inference 門檻更低,滲透到更多應用,特別是 Edge 端,從而進一步促進 Training 的需求,應該是符合它的最大利益的。而且 NVDLA 的軟體環境還是使用 Nvidia 的 CUDA/TensorRT,還是由 Nvidia 掌控的。

這場從一篇論文開始,幾乎貫穿了 2017 年全年的 Google 和 Nvidia 的明爭暗鬥,對業界的影響可能要遠遠超過這兩家公司本身。我之所以把它稱為“錯位”的戰爭,是因為它發生在 Google 這樣的傳統的軟體巨頭和 Nvidia 這樣的晶元巨頭之間。如果換成 Intel vs Nvidia,似乎是再正常不過的。Google 的參戰,也許是開啟了新的時代。我們可以看到,不僅是 TPU,Google 在 10 月又公佈了他們在“Google Pixel 2”手機中使用的定製 SoC IPU(Image Processing Unit)。和 Apple 越來越多的自己定製晶元一樣,Google 這樣的科技巨頭同樣有應用(明確知道自己要什麼),技術(對相關技術的多年積累),資源(不缺錢,不缺人)上的優勢,定製自己的硬體,甚至晶元會變得常態化。同時我們也看到,Google TPU 的示範效應已經顯現,更多的科技巨頭加入 AI 加速硬體的競爭。Tesla 宣佈自己定製自動駕駛晶元;Amazon,Microsoft,以及國內的 BAT,華為都在 Cloud 中提供專門的 FPGA 加速的支持;據稱 Big Five 中還有在自己開發晶元的;BAT 也都在組建晶元設計的團隊,等等。雖然大傢具體的架構和實現方式不同,但都反映出對 AI 專用硬體的極大興趣。相信未來這一趨勢會越來越明顯。

同時,傳統的晶元巨頭當然不會坐視這個巨大的市場被 Nvidia 主宰或者被 Google 們瓜分。Intel 連續收購了 Nervana(雲),Movidius(端),Mobileye(自動駕駛),Altera(FPGA),又把 AMD 的 RajaKudori(GPU)招至帳下,甚至還搞了 Loihi(nueromorphic),可以說拿了一手好牌;雖然動作沒有大家想象的那麼快,但後面的發力還是值得期待的。AMD 也在努力追趕,畢竟他們的 CPU+GPU 有自己絕活,而整個公司也已經逐漸走出了低谷。而且,不管 Tesla 和 AMD 合作自動駕駛晶元的消息到底是真是假,晶元公司這種輸出晶元設計能力的模式也是一種不錯(或者無奈)的選擇。

“以 Deep Learning 為代表的新型計算模式將引領未來晶元的發展方向”,這一觀點基本已經是大家的一個共識。越來越多的玩家會關註能夠支持新型計算的晶元,其中很多可能之前完全不在半導體這個圈子,也完全不瞭解晶元是怎麼回事。2017 年我們不時能看到一些對比 CPU,GPU,FPGA 和 ASIC 架構的科普文章,甚至有 10W+ 的閱讀量,不難看出大家的熱情。

初創公司 • 長長的 list

不止 Google vs. Nvidia:深度學習引領AI晶元大戰
不止 Google vs. Nvidia:深度學習引領AI晶元大戰

2017 的 AI 晶元大戲中,主角不僅是巨頭,初創公司也都粉墨登場,戲份一點兒都不遜色。更重要的,在初創公司的“表演”中,中國公司不僅毫不怯場,而且非常出彩。我從 8 月份開始在 github 上維護一個 AI 晶元的列表,既包括大公司的產品,又包括初創公司的情況。到 12 月,這個列表中的信息越來越多,世界範圍內的初創公司有 30 多家。而且這個列表還只包含了公開信息,還有很多公司處在 stealth 狀態並沒有收錄。我也聽到一個說法,在 AI 晶元領域的初創公司可能超過了 100 家,在 TSMC 排隊投片也有 30 家。

不管在什麼領域,初創公司都會面臨很多風險和不確定性,也可能在成長過程中不斷調整和變化。AI 晶元當然也不例外。我們看到,在這一年中,很多公司在不斷成長,逐漸明確自己的方向和定位,走的越來越堅實。另一方面,從今年初創公司融資的情況來看,這個領域(也包括更大範圍的 AI 概念)也明顯出現一些泡沫。有些公司,在沒有任何實際東西的情況下,就可以實現“PPT 融資”或者“Paper 融資”。有些公司,重心放在了 PR 上面,功夫都是做給 VC 看的,人稱“2VC”公司。面對 AI 這個趨勢性機會,有泡沫當然也是正常現象,只是希望這些泡沫不要傷害整個市場的發展。

拋開各種煙霧和泡沫,我們逐漸在這個領域初創公司也看到一些“龍頭企業”。比如國內的寒武紀、地平線、深鑒科技和比特大陸,都在 2017 年發布了自己的產品;美國的 Cerebras、Wave Computing、Graphcore 和 Groq(前 GoogleTPU 主要設計者創立),或有雄厚的實力,或有自己特色的技術和比較清晰的產品。在 2017 年,國內也出現一些依托應用開發晶元的 AI 初創公司,這些公司大多以應用牽頭研發晶元。我也預期在 2018 年會看到更多這樣的情況。當然,很多初創公司並沒有公開自己的信息,不排除正在憋大招的可能性。

熟悉半導體產業的朋友可能比較清楚,半導體領域初創公司獲得 VC 投資在之前是非常困難的。主要原因是這個產業風險大,門檻高,周期長。但 2017 年,AI 晶元的初創企業卻受到了資金追捧。我們可以看看今年的一些公開的融資數據。寒武紀:1 億美金(估值近 10 億美金);深鑒科技:4000 萬美金;地平線:近億美金;;Cerabras:6000 萬美金(估值 8.6 億美金);Graphcore:5000 萬美金。在前面我也提到,當 Nvidia 宣佈要開源 DLA 的時候,大家感覺會對初創公司的融資和估值有一定影響。但從結果來看,這種情況並沒有出現。在 9 月之後,我們又看到很多初創公司成功融資。而投資者的熱情似乎一點都沒有減弱,只要有一個新的公司出現,立刻會有很多投資機構蜂擁而至。

為什麼傳統上不願意碰半導體產業的投資者現在卻對 AI 晶元趨之若鶩呢?這是一個有趣的問題。具體的原因可能有很多方面,整個 AI 領域的投資熱潮應該是一個主要原因。如果觀察這些投資背後的資本,可以看到很多本身就是 AI 領域很活躍的投資者,甚至本身就是把 AI 作為未來重點的科技巨頭,比如 BAT。而傳統的投資半導體領域的資金倒是比較謹慎一些。從這個角度來說,這些沒有太多半導體背景的資本大量進入晶元領域,是會給大家帶來新的機會和視野,還是帶來風險和不確定性,還是有待觀察的。另外,現在所說的 AI 晶元,一般是指 Deep Learning 加速晶元,相對來說,關鍵演算法簡單清晰,優化目標非常明確,很多技術(比如矩陣運算的硬體加速)已有多年的研究基礎。而對這種硬體加速器的驗證,測試和調試也相對容易。如果不進行精細的優化,硬體部分可以由一個較小團隊在較短時間完成。這些技術上的特徵比較適合初創公司快速嘗試。當然,做一個加速晶元(或者 IP)的硬體只是第一步。要真正做出能被市場接受的產品,則需要很多扎實的工作,產品定義,硬體效能,軟體工具,系統測試,現場支持等等,一個短板也不能有。雖然大家都很關心投片的時間,但樣片出來之後,臟活累活還多著呢。

2018 • 關註什麼

對於 2018,我還是非常期待的。作為一名多年從事晶元架構設計多年的工程師,我首先期待看到一些技術上的創新。2017 年我寫了不少分析 AI 晶元相關技術的文章,到年末幾乎有點審美疲勞了(相信讀者也是一樣),似乎新鮮東西越來越少。在 2017 年底,有一個叫 Vathys 的初創公司,一下子開了好幾個腦洞,全定製的 Asynchronous Logic,等效的時鐘可以到 12GHz(28nm 工藝);High-densitySRAM(1T-SRAM),片上存儲容量可以達到 1.5GB(28nm);Wireless 3D Stacking,10,000GBit/S @ ~8 fJ/bit。這幾項技術要麼是目前還停留在學術研究階段,要麼是曾經曇花一現。一個初創公司一下就祭出這幾個大招,又是這麼高的指標,真有可能實現嗎?所以,當 Vathys 的老闆發郵件說應該把他們公司加到我做的 AI 晶元 List 里的時候,我開始是婉拒的。不過,換一個角度來看,即使是他們完全在忽悠,也算是擊中了 Deep Learning 處理器的痛點。而且這幾項技術目前也都有人在研究,在 AI 的熱潮和巨大的資金支持下也許真能搞出來也說不定。所以,我還是希望看到他們或者是其它團隊能夠在這幾項技術上取得突破,讓我們真正激動一把。說到技術的突破,我們未來(可能要比 2018 年更遠)還可以期待看到在存儲技術上的突破,以及由新的存儲技術帶動的架構上的創新,包括 Neuromorphic 這條技術路線。

接下來,當然是巨頭們的下一步動作。Google 的 TPU 是否會賣給自己之外的用戶,直接和 Nvidia 展開競爭?目前 ONNX 陣營已經形成和 Google 的對峙,Google 作為生態最完整的廠商,推廣 TPU 對鞏固自己的領先地位很有意義。Big Five 和 BAT 哪個會學習 Google 榜樣直接自研晶元?阿裡達摩院的晶元研究會不會從 AI 開始?Intel 能不能如大家所期待的全面爆發?Nvidia 會如何應對來自各方的挑戰,是否會做更專用的加速晶元,而不是僅僅在 GPU 中加個 Tensor Core?高通什麼時候在手機晶元中加上硬體加速器?ARM 下一步會怎麼走,會不會橫掃嵌入端?。。。隨便想想就會有很多值得期待的看點。最近我們也看到,為了對抗 Nvidia,AMD 和 Intel 竟然很罕見的宣佈合作。而 IBM 在 Power9 上和 Nvidia 深度合作。2018 年也許我們還能看到業界巨頭間更多的合縱連橫。

初創公司的命運也是 2018 年最大的看點。我在之前的一篇文章中說過“對於 AI 晶元的 startup 來說,2018 年就算不是畢業大考,也至少到了學期末考試了…”。2018 年,大部分初創公司都將會交出第一次測驗的結果(晶元),也會開始小批量的試用。相信到時會有比較公平的 Benchmarking 結果出現,“理論上”的指標會被實際的“跑分”結果取代。雖然對於初創公司來說,犯錯誤是可以容忍的,第一代晶元也不能完全代表公司未來的前景。但是,做晶元需要巨大資源的持續支持,這個階段掉隊可能非常危險。當然,第一次的淘汰對於真正優秀的企業也是最好的機會。我非常期待看到能夠在考試中脫穎而出,並跨上新的台階(或者直接畢業)的同學;或者,會有我們不認識的面孔,突然驚艷出場。另外,2018 年,在 Edge 端會有更多的傳統晶元廠商加入競爭,三星,高通,MTK,展訊等等;而在嵌入端 IP 上有絕對優勢的 ARM 應該也會有更大的動作,這些都可能會對初創公司的命運產生重大影響。

最後,是變局的可能。從整體上來講,AI 整體上在 2018 年會怎麼發展是一個大家都非常關註的問題。繼續高速增長,還是平穩發展,又或者會遇到問題高開低走?不管是哪種情況,AI 晶元必然會受到大勢的影響。比較特殊的是,晶元研發的周期大約在 9 到 18 個月左右,這比軟體應用的開發和更新周期要長的多。再加上一些滯後效應,晶元的發展很難和演算法和應用的發展節奏同步。晶元開發中一個比較可怕的問題就是未來的不確定性。相對來說,一個可預期的平穩增長的環境是最有利於晶元研發的,可以讓晶元設計者能夠更好的規劃產品和協調資源。

另一種變局情況是,演算法層面發生巨大的變化,也就是技術上的不確定性。這幾年最成功的 AI 演算法就是基於神經網路的深度學習。這正是目前 AI 晶元在需求上的基礎,也決定了現在大部分 AI 晶元都是以加速這一類演算法為目標的。如果基本演算法需求發生變化,會對 AI 晶元的設計產生很大的影響。比如,目前已經有一定應用基礎的低精度網路,也就是在 inference 中使用非常低的精度,甚至直接使用二值網路。如果這種 Inference 得到廣泛應用,現在的晶元架構則可能得要重新考慮。再比如,如果 Hinton 大神的 capsule networks 得到實用,也可能會需要新的晶元架構來支持。畢竟 AI 領域現在發展很快,所以大家也都必須要時刻盯著應用和演算法層面最新的進展。我們也要隨時問自己下麵的問題(來自 Jeff Dean 在 NIPS2017 的演講)。

不止 Google vs. Nvidia:深度學習引領AI晶元大戰
不止 Google vs. Nvidia:深度學習引領AI晶元大戰

總結

2017 年馬上就要過去,在這幾年相對“平淡”的半導體領域,AI 晶元讓我們小激動了一下。其實可聊的事情很多,以上文字基本上是想到哪寫到哪,也都是個人一點點感想,準確的地方,還請各位多多指正,多多包含。

祝各位讀者 2018 年萬事如意!更要祝各位奮戰在 AI 晶元第一線的各位同仁獲得成功!

AI 前線聲明 | 本文系唐杉博士原創文章,已經授權 InfoQ 公眾號轉發傳播。

作者簡介

唐杉博士具有超過 15 年的晶元設計、專用處理器設計和 SoC 架構設計經驗,現在 Synopsys AI Lab 負責 AI 晶元架構和相關技術的研究。歡迎關註唐杉博士的公眾號 StarryHeavensAbove

本文經授權發布,不代表36氪立場。如若轉載請聯系原作者。