高通 Qualcomm AI Research 展示全球首個在手機上執行 Stable Diffusion 的 AI 繪圖,僅需幾十秒即可將文字轉化為圖像

近期 AI 畫圖是相當熱門的議題,僅需給予簡單的文字描述, AI 系統就可產生符合描述的精緻圖像;高通在 MWC 前夕公布一段 Qualcomm AI Research 的研究成果,領先全球首度在手機執行原本需要在雲端服務執行 Stable Diffusion 模型,使手機也能如雲端服務一樣依照文字產生對應的影像。

高通強調此次的實驗是以搭載高通 Snapdragon 8 Gen 2 的市售裝置執行,並透過跨應用程式、神經網路模型、演算法、軟硬體等進行最佳化,並動用公司跨部門協作實現此次的實驗成果。高通透過由 Hugging Face 的 FP32 version 1-5 開源模型作為基礎,透過量化、編譯與硬體加速進行最佳化,使複雜的 Stable Diffusion 能在 Snapdragon 8 Gen 2 順利執行。

為了使複雜的 FP32 模型可在行動處理器執行,團隊首先利用自行開發的 AI Model Efficiency Tool Kit ( AIMET )工具將 FP32 轉化為 INT8 ,借助將 FP32 轉化為 INT8 ,不僅能提升 AI 模型執行效率,並縮減記憶體頻寬達到節能效果。 AIMET 技術中的 AdaRound (自適應捨入)能夠在轉化到低精度後維持模型的精度而不須重新訓練模型, Qualcomm AI Research 將這些技術應用在包括文本編碼、 VAE 解碼與 UNet 等 Stable Diffusion 的結構組件。

此外, Qualcomm AI Research 利用高通 AIE 框架將神經網路映射在目標硬體的高效能執行程序,根據 Qualcomm Hexagon DSP 的硬體架構與記憶體層次結構對操作進行排序,在提升效能的同時也抑制記憶體溢出;其中部分增強是由 AI 最佳化研究人員與編譯器工程團隊協作改進 AI 推論中的記憶體管理結果,使 AIE 的整體獲得最佳化,並減少執行的延遲與功耗。

同時,借助 Snapdragon 8 Gen 2 具備的 Micro Tile Inferencing (微塊推論)功能,使複雜的 Stable Diffusion 能夠在行動裝置執行;不過 Qualcom AI Research 仍期待未來的 Snapdragon 可具備更強大的算力使效率更為提升;在 Qualcom AI Research 的協力下,最終在 Snapdragon 8 Gen 2 的裝置於 15 秒執行 20 個步驟,並產生 512 x 512 像素的圖像,也是目前手機上最快的 AI 繪圖表現,幾乎能媲美雲端服務的速度。

高通認為,邊際 AI 時代即將來臨,日後使用者可透過針對行動裝置最佳化編譯的 AI 模型,不須連接上網路即可執行許多複雜的 AI 應用,。並確保低延遲、網路頻寬與隱私權,除了此次的示範外,高通指出 Stable Diffusion 還能用於影像編輯、影像修復、風格轉換、超解析等影像處理技術。同時高通認為在手機執行 Stable Diffusion 只是一個開始,意味著未來包括筆電、 XR 頭戴顯示器皆可由 Stable Diffusion 獲得體驗增強。

更多Cool3C文章
歧路旅人2攻略心得:角色分析、地圖指令、固有技能、潛力整理
Netflix我是千尋電影心得:有村架純觀察日記、反差產生美感、片尾彩蛋