【獨家專訪】Google高管曝AI大戰2賽道:多模態AI、輕量!他如何看GPT-4o?

「我們寧願處在一個技術正在蓬勃發展的環境裡,而不是在原地靜止不前。」當媒體問及對手OpenAI一路以來的的步步進逼,Google執行長桑德爾.皮蔡(Sundar Pichai)反覆強調,他看好競爭帶來的刺激。這番話由Google掌門人說出來,別有一番意義。過去20年裡,Google並不習慣追趕,但是AI領域的競爭,逼迫所有人重新開始,科技巨頭也必須與新創挑戰者站在同樣的起跑線。

所有人都在找尋最有利的路線。Gemini是Google重要的武器,Gemini體驗工程研發副總裁阿瑪爾.蘇布拉曼亞(Amar Subramanya)接受《數位時代》獨家專訪,指出Google在AI技術最關鍵的2條賽道。

關鍵賽道一:多模態AI!派Astra應戰,「讓科技做代理人」

首先,絕對是跟今年Google I/O大會上的展示息息相關。今年5月,Google和OpenAI幾乎同時揭開「多模態AI」的競爭新局。OpenAI搶先1天發表了新版聊天機器人GPT-4o,隔天Google I/O就公開以Gemini 1.5為基底的智慧助手Astra,兩者都以多模態能力為最大亮點。

多模態AI(Multi-Modal Foundation Model)指的是什麼?

所謂的多模態, 指的是人可以透過文字、圖片、語言、影片等多種形式和電腦、人工智慧互動 。早期的深度學習都屬於單模態AI,也就是只能接收、分析單一類型的數據, 例如使用文字或圖片互動。不同模型之間的機器學習方式,存在很大的差異,然而具有多模態能力的AI卻可以「全都要」。

在Google I/O展示的示範影片中,使用者拿著手機邊拍畫面、邊到處走動,途中詢問Astra各式各樣的問題,Astra隨著鏡頭角度四處觀看,能辨識出窗外的街區、從電腦螢幕上分析程式碼的狀態,甚至在影片最後,使用者詢問:「記不記得我的眼鏡放在哪裡?」Astra可以回憶這幾分鐘的所有畫面,馬上得出結論:「我記得!你把它放在一顆蘋果旁邊。」

這項功能發表時,現場響起如雷掌聲。阿瑪爾指出,Astra展現的多模態技術,對Google和全球用戶來說都是非常重要的一步,「Gemini的定位不再只是聊天機器人,我們希望它是全方位的個人助手。那麼這個助手就必須和你用一樣的方式去體驗世界,否則就無法完全理解你的指令,提供最適當的幫助。」 他表示,Google不只希望讓人們和這些模型互動,更想讓科技做為「代理人」,真正執行任務。

Google I/O 圖/Google
Google I/O 圖/Google

這對阿瑪爾的團隊來說並非易事,「這項技術還在很早期,我們須以 負責任 的方式,反覆且仔細測試模型,同時加快進步的速度。」作為AI主力的Google DeepMind和產品團隊如Android、Workspace等部門都為此緊密合作,確保產品推向市場前,遵循公司的行動準則:大膽且負責任(bold and responsible)。

延伸閱讀:「過去的Google不復存在!」18年資深員工離職開砲:皮蔡是罪魁禍首,沒有遠見

會如此謹慎,是因為多模態模型訓練的過程中,最大的敵人就是「幻覺」,這是多模態的多元理解力和創造力所帶來的反效果。白話來說,就是因為「腦洞大開」,所以容易提供脫離常理的內容和錯誤資訊。
對Google來說,降低幻覺仍是一大考驗,不過他們有一項「外掛」優勢——搜尋引擎,透過網路即時更新的資料多一層驗證,希望提高AI回答的真實性,同時也加入更詳盡的上下文、提供資料出處便於查證,做最後一層人為的篩選。

關鍵賽道二:更俗、更輕量,Gemini「知識蒸餾」集大成

AI模型的發展有點類似半導體技術,一方面要它更強大,一方面卻希望它更輕更小。

由於運算成本高、大量記憶體需求、高耗能等缺點,巨大的模型並不符合成本,因此業界都在追求更精巧的AI模型,希望把先進功能塞進小小的裝置中。

「Google認為小型模型的開發非常有價值,我們的團隊一直持續努力讓小模型獲得更高階的能力,比如規畫、推理和記憶。」阿瑪爾說。

而Google最核心的大型語言模型Gemini家族,在去年推出小模型Nano,能把AI模型「塞進」手機裡。今年重頭戲則落在新成員Gemini 1.5 Flash身上,展現Google在「微型化」技術的升級。

Gemini 1.5 Flash把Google旗下最先進的Gemini 1.5 Pro用「知識蒸餾」的方式,縮到更輕量,同時保留同等級的能力。 例如它仍可處理多達百萬token,代表可以上傳長達1,500頁的文件,或超過3萬行的程式碼。在Google I/O的現場示範中,就讓AI在30秒內閱讀整本經濟學理論,接著針對書裡的內容回答問題,或根據指令進行摘要整理。

Google I/O Gemini 圖/隋昱嬋攝影
Google I/O Gemini 圖/隋昱嬋攝影

Google DeepMind技術長柯瑞.卡夫康古(Koray Kavukcuoglu)補充解釋, 知識蒸餾是從「資優生」Pro模型中,提取精華資訊 。就像是做好考試的重點整理一樣,讓Flash模型直接用這些重點來學習,速度更快、使用的算力更小,但品質可以達到和資優生相近的水準。

因為宗旨是減輕企業或開發者的負擔,Gemini 1.5 Flash的定價也壓得更低,每百萬個token 為35美分,比起GPT-4o 每百萬個token要 價5 美元,還要再便宜不少。由此可見,無論是模型還是成本的「輕量化」,都是AI巨頭們未來競爭的重要方向。

「終極目標是讓AI融入Google所有產品和服務,為全世界的人帶來幫助。」阿瑪爾說。這項願景看似遙遠,但以AI技術迭代的速度,科幻般的未來場景,可能比想像更早成為現實。

延伸閱讀:提了121次的AI,Google奪回主導權了嗎?AI摘要是媒體末日還是大商機?

責任編輯:蘇柔瑋

更多報導
簡立峰:黃仁勳1人救台灣!AI PC、AI手機、機器人為何是台灣下一個重要機會?
蘋果聊天機器人難產!WWDC將先推「AI小工具」,合作OpenAI計畫成亮點?
AI時代下,大學科系填資工就對了?專家拆解選系邏輯,1種軟實力更關鍵