低功耗AI晶片的明爭暗鬥

低功耗人工智慧的市場格局

隨著物聯網和下一代智能裝置的普及,低功耗電子裝置和晶片正在越來越多地進入千家萬戶,低功耗設計也在變得越來越重要。物聯網和智能裝置一方面對於裝置尺寸有限制,另一方面對於成本也有很高的需求,此外在一些使用場景中對於電池的更換和充電週期有需求(例如需要每個月或更長的電池更換週期),因此對於電池的容量有很高的限制,這要求晶片能使用低功耗設計。

另一方面,物聯網和智能裝置正在越來越多地加入人工智慧的特性。人工智慧可以為物聯網和智能裝置提供重要的新特性,例如語音類人工智慧可以提供喚醒詞識別,語音指令識別等,而機器視覺類人工智慧可以提供人臉檢測,事件檢測等等。如前所述,物聯網和智能裝置對於低功耗有需求,因此人工智慧特性的加入也需要是低功耗人工智慧。

目前,人工智慧晶片已經在雲端和智能裝置終端普及,例如在雲端以Nvidia和AMD為代表的GPU和以Intel/Habana為代表的人工智慧加速晶片;而在終端智能裝置則主要是在SoC上的人工智慧加速IP,但是無論是GPU和SoC上的人工智慧加速IP,都沒有考慮到低功耗的需求,因此在未來的物聯網和智能裝置中的人工智慧都需要有新的低功耗相關的設計。

感測器計算:低功耗AI的重要技術路徑

在智能裝置和物聯網應用中的低功耗人工智慧需要把功耗降到非常低,從而能實現即時線上(always-on)的人工智慧服務。這裡所謂的always-on,指的就是人工智慧需要永遠可用,而不需要使用者主動打開後才工作。這一方面需要相關的感測器要一直打開從而即時檢測相關模態的訊號,另一方面也需要人工智慧能做到低功耗。

傳統設計中,感測器的功能就是負責高性能訊號採集,並且把採集到的訊號傳輸到處理器(SoC或者MCU)上去做進一步計算和處理,而感測器本身並沒有計算能力。然而,傳統設計的假設是感測器在打開時相關的處理器就要同時打開,而這並不能滿足always-on AI的需求,因為SoC和MCU如果一直在運行AI演算法的話對於電池的消耗很大。另一方面,從實際角度來看,這類always-on人工智慧應用主要是希望人工智慧一直運行從而一旦重要的相關事件發生時可以即時響應(例如IMU檢測到使用者在開車則把智能裝置的推送通知關掉等),但是事實上這類相關事件的發生頻率並不會很高,如果一直把SoC或者MCU的人工智慧模組打開,絕大多數時候AI模型的輸出都是“未檢測到事件”。

結合這兩點,運行在感測器端的計算就在變得越來越得到重視。首先,在always-on的低功耗人工智慧中,無論如何感測器是需要一直打開的,因此如果感測器能有人工智慧計算能力,那麼可以讓人工智慧模型運行在感測器端,而無需一直打開SoC或者MCU上面的人工智慧模組。另外,在感測器端運行人工智慧也可以避免感測器和SoC/MCU之間一直傳輸資料,從而進一步降低功耗。最後,在感測器端的人工智慧模組可以做到為感測器量身定製而無需考慮通用性,因此可以為最適合感測器的人工智慧演算法做定製化最佳化,從而實現非常高的能效比。

當然,感測器端的人工智慧也有其自己的侷限。一方面從性能和成本上來說,通常感測器端的計算和儲存空間都較小,人工智慧模組無法做到支援大模型,因此模型的性能會比較有限。另一方面,如前所述感測器端的人工智慧也很難做到支援通用模型,而往往只會支援一些特定的算子和模型結構。

綜上所述,感測器端的人工智慧可以做到低功耗,但是其模型性能也較為有限;但是另一方面低功耗人工智慧場景中,真正需要處理的相關事件的發生頻率也並不高。結合這兩點,感測器端人工智慧最適合運行一些較為專用的小模型,用於過濾掉絕大多數的無關事件;而在感測器端人工智慧檢測到相關事件後,感測器可以喚醒SoC或MCU上的人工智慧進行下一步的確認,從而同時滿足低功耗和always-on的需求。

在圖像感測器領域,Sony已經推出了IMX500系列感測器,其中把感測器晶片和整合了人工智慧計算能力的邏輯晶片做了堆疊,從而可以把像素訊號傳輸給邏輯晶片上的人工智慧計算引擎,從而感測器的輸出可以是圖像,可以是人工智慧模型的輸出,或者是兩者的結合。這樣一來,就可以讓感測器運行在低功耗always-on狀態,而僅僅當其模型輸出符合某些特定條件(例如檢測到人臉)時才去喚醒MCU或者SoC做下一步動作。我們預計,Sony將會在接下來的感測器晶片中進一步加強其人工智慧能力,從而增強在這個領域的領先地位。

感測器和人工智慧結合的另一個例子是ST推出的IMU系列產品。ST在擁有相關人工智慧特性的IMU中整合了機器學習核(Machine Learning Core)和有限狀態機(Finite State Machine),從而可以用非常高效的方式支援IMU上直接進行人工智慧計算。ST目前支援的人工智慧演算法主要是決策樹演算法,並且可以支援IMU訊號的一些重要特徵提取(例如訊號幅度,訊號方差等),從而能在IMU上直接實現使用者活動分類(例如靜止,行走,騎車,駕駛汽車等等分類),這樣能在檢測到相關事件時喚醒MCU/SoC進行下一步操作。根據ST公佈的資料,MLC的功耗僅僅在微瓦數量級,從而能很好地支援always-on需求。當然,另一方面我們也看到決策樹演算法事實上的能力有限,難以對於複雜的活動進行建模,因此如同我們之前討論的,這裡的IMU感測器內人工智慧適合完成事件的初篩來過濾掉無關事件,而更複雜的分類和確認可以通過運行在MCU或者SoC上的模型來完成。

低功耗人工智慧MCU

除了感測器內人工智慧之外,另一個重要的低功耗人工智慧技術路徑是運行在MCU內的人工智慧。無論是物聯網還是智能裝置,都離不開低功耗MCU作為最關鍵的控制單元,而通常來說MCU的功耗會比SoC要低一到兩個數量級。通過在MCU上整合人工智慧,我們可以把運行人工智慧的任務放到MCU上,從而無需喚醒SoC;或者在一些低成本應用中,成本考量使得無法整合SoC,這時候如果需要人工智慧的話,擁有人工智慧能力的MCU就是一個重要選項了。

值得注意的是,MCU上的人工智慧和感測器端的人工智慧並不矛盾。如前所述,感測器裡的人工智慧通常能運行的模型種類的複雜度都會比較有限,同時一個感測器裡的模型顯然只能使用該感測器的訊號作為輸入。另一方面,MCU上的人工智慧模組通常可以支援較為通用的人工智慧模型,同時也有機會做到使用多個感測器的訊號作為模型輸入。當然,MCU上的人工智慧模組的能效比通常會略遜於感測器端的人工智慧模組,因此,在一個系統中可以把具有人工智慧能力的感測器和具有人工智慧能力的MCU聯用,在感測器端運行較為專用的第一級較為簡單的模型初篩事件,在需要的時候喚醒MCU上的 人工智慧模組去執行較為通用的模型去進行事件確認。

目前,MCU晶片市場上已經有一些相關的產品,例如NXP的RT600 MCU,該產品在ARM M33核之外,還整合了Tensilica HiFi 4 DSP並且擁有4.5 MB的片上儲存,從而可以加速通用人工智慧模型。除了NXP之外,ADI的MAX78000 MCU整合了ARM M4和RISC-V核心,還整合了CNN加速器用來實現人工智慧加速。我們認為,未來會有越來越多的低功耗MCU加入人工智慧能力從而滿足物聯網和智能裝置的需求。

低功耗人工智慧的市場格局

如我們之前所討論的,低功耗人工智慧更多並非創造一種新的晶片品類,而是在現有的晶片中加入人工智慧能力,從而創造一定的差異化競爭優勢。我們目前看到,無論是在感測器端還是在MCU端,都有市場中處於領先地位的企業(例如感測器領域的Sony,ST;MCU領域的NXP,ADI等等)在積極加入人工智慧功能,未來可望會有越來越多的公司的產品也會在人工智慧方面進行投入。

對於中國半導體企業來說,感測器和MCU方面的人工智慧也是一個值得重視的方向。目前來看,加入人工智慧更多的是一個產品定位和整合度問題(即如何把握好產品對應的市場,並且去整合最合適的人工智慧模組),但是在未來隨著技術的進步,相關的技術積累也會逐漸加深,因此中國半導體廠商如果能在這個領域從目前就開始佈局,可以加深自己在這方面的技術實力並且增加產品在未來智能物聯網和下一代智能裝置裡的競爭力。

本文來自微信公眾號“半導體行業觀察”(ID:icbank),作者:李飛,36氪經授權發佈。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪