Google承認Gemini超神影片造假「動了幾刀」!號稱打贏GPT-4,其實很水?

Google於12月份的第一周野心勃勃地揭開全新AI模型Gemini的神秘面紗,除了拍攝影片大肆宣傳Gemini卓越的架構和功能,還聲稱這款模型已超越OpenAI的GPT-4等模型的性能。不過卻有人發現,Gemini的宣傳影片有造假之嫌,指出這款模型可能不像Google聲稱的那麼好。

12月6日,Google公布一段名為「與Gemini互動:和多模態(multimodal)AI互動」的影片,點閱率在一天內即突破100萬次,因為這個演示影片呈現了Gemini如何以混合語言和視覺理解的多模態AI模型,靈活地回應各種輸入的內容或指令。

延伸閱讀:Google最強模型Gemini,30項測試打贏GPT-4!Pixel 8 Pro搶先解鎖2大AI功能

大動作推出Gemini,演示影片卻陷入造假危機

儘管影片有確實載明影片中有縮短Gemini的反應時間,跳過中間的延遲和猶豫的部分,但《彭博社》的記者首先指出,這個影片並非真實的,因為實際上的「演示影片」,是經過一系列精心調整的圖像和文字提示,所歪曲而成的互動情況,不論是用戶在和模型互動的速度、準確性和基本運行模式都被影片誤導。

舉例來說,影片2:45處顯示的是,一隻手靜靜坐出一系列的手勢,而Gemini則快速回應用戶在玩剪刀石頭布,不過在Google另外提供的文件中說明,Gemini是同時看到剪刀、石頭和布三個手勢,並且在文字提示:「你認為我在做什麼?提示:這是一個遊戲」的協助下,才做出最終正確的回答。

雖然實際的互動和影片內容仍有相似之處,但兩種互動的感覺顯然有很大的不同,一種是直觀、無須言語的評估,可以即時捕捉抽象的想法,另一種卻是精心設計且高度暗示的互動,反而顯示了其侷限性。

除了演示影片的問題以外,AbacusAI執行長賓杜.雷迪(Bindu Reddy)在其X的個人貼文中分享他的觀察,雖然Google列舉許多Gemini在各種基準測試中的得分超越GPT-4,包含用於評估AI模型在STEM、社會科學、數學和人文學科等領域潛力的大規模多任務語言理解(Massive Multitask Language Understanding,MMLU)。

雷迪指出Google使用COT@32取代5-shot的機器學習方式,以增強Gemini的效能,才得以在MMLU方面的評估更加突出。但5-shot才是評估這項表現的標準衡量基準,而在使用5-shot的情況下,GPT-4的表現(86.4%)仍比Gemini更佳(83.7%)。

google gemini rock paper scissors.jpg 圖/Google
google gemini rock paper scissors.jpg 圖/Google

同時,也已有許多人開始試用Bard上面的Gemini「精簡版」Gemini Pro,他們發現該模型無法正確反映基本事實。例如,當問到2023年的奧斯卡最佳男主角,Gemini Pro回答的是去年的得主布蘭頓.葛利森(Brendan Gleeson),而不是真正的獲勝者布蘭登.費雪(Brendan Fraser)。除此之外,翻譯或外語似乎也不是它的強項,有人詢問Gemini Pro是否可以給他一個6個字母的法語單字,其回覆的不是7個字母就是5個字母的單字。

Google Gemini translate 圖/X @benjaminnetter
Google Gemini translate 圖/X @benjaminnetter

Google回應演示影片是為了激勵開發人員

隨著質疑的聲浪越來越大,Google研究和深度學習副總裁Oriol Vinyals回應,對於人們對Gemini的實作影片感興趣非常高興,他也重申影片中的所有使用者提示和輸出的結果都是真實的,只是為了簡潔而縮短。演示影片也展示了使用Gemini構建的多模態用戶體驗會是什麼樣子,Google之所以製作它是為了激勵開發人員。

不過這並非Google的演示影片第一次受到質疑,過去該公司在展示AI助理Duplex協助用戶預定髮廊和餐廳時就有過爭議。在演示過程中,Google Duplex看起來能夠協助人們預訂餐廳、預約美髮服務,甚至預訂旅行。但在幾位記者和專家的實際操作後,他們得出該演示影片的內容並非真實的結論,而是需要另外設定,因此Google Duplex的功能被認為是虛假的。

延伸閱讀:Google最強模型Gemini,背後靈魂推手揭密!Deepmind創辦人如何靠「西洋棋」成功?

參考資料:Tech CrunchTech CrunchIndia ExpressMintCNET

責任編輯:陳建鈞、蘇祐萱

更多報導
Google最強模型Gemini,30項測試打贏GPT-4!Pixel 8 Pro搶先解鎖2大AI功能
【觀點】Gemini其實不是要幹掉ChatGPT!Google兵分三路想做什麼?AI大戰解析