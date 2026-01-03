隨著生成式AI (Generative AI) 應用日益普及，大型語言模型 (LLM) 最令人頭痛的「幻覺」 (Hallucination)問題——即AI一本正經地胡說八道，始終是業界極力想解決的痛點。為了更精確量化AI到底「有多誠實」，Google聯合旗下的Google DeepMind、Google Cloud與Kaggle團隊，發表一套名為FACTS (Factuality Assessment for Contemporary Text Synthesis,當代文本綜合事實性評估) 的全新評估基準。

Google推出全新「FACTS」基準測試專抓AI說謊！連最強模型準確率都不滿七成

廣告 廣告

這套被視為AI真實性「終極考試」的基準，不僅測試單純的問答，更涵蓋了圖像理解與工具使用。值得關注的是，即便是目前帳面數據最強的Gemini 3 Pro，在此測試中的平均準確率也僅約69%，顯示現階段AI距離「完全可信」仍有一段不小的差距。

四大關卡：不僅要會答，還要「知之為知之」

不同於傳統僅針對文本生成的測試，FACTS基準由四個針對不同能力的子測試組成，宛如一場全方位的AI體檢：

• M-FACTS (多模態測試)：考驗AI的「眼力」與知識結合能力。例如給AI看一張特定型號的火車照片，不僅要能辨識型號，還要能回答該型號的製造年份等深層資訊，而非僅描述圖片外觀。

• P-FACTS (參數化測試)：這是純粹的「隨堂考」。AI必須在不聯網的情況下，僅憑訓練時內建的知識庫回答困難問題。Google特別採用「對抗性篩選」，只保留那些現有模型容易答錯的題目，確保鑑別度。

• S-FACTS (搜尋測試)：模擬AI作為代理人 (Agent) 的能力。AI必須懂得自行拆解複雜問題 (例如：「某編劇最早發行的電影是哪部？」)，執行多次搜尋，並且整合資訊。

• D-FACTS (文檔理解測試)：測驗AI的「忠實度」。給定一份文件，AI必須嚴格根據內容回答，嚴禁「腦補」添加文檔中未提及的資訊。

評測結果：Gemini 3 Pro險勝，GPT-5展現「誠實的無知」

在導入雙重自動評判機制 (由AI裁判員檢查核心事實覆蓋率與矛盾性)後，測試結果顯示目前市面上的頂級模型仍有約30%的錯誤率。

而Google自家的Gemini 3 Pro以68.8%的準確率位居榜首，其次是Gemini 2.5 Pro (62.1%) 與OpenAI的GPT-5 (61.8%)。

有趣的是，測試揭露了不同模型的「性格」差異。Gemini系列傾向於提供詳盡的資訊 (寧可多說)，但在多模態測試中有時會因此夾雜不精確的內容；而GPT-5與Claude 系列則表現出「精準至上」的特質，遇到不確定的問題傾向於承認「不知道」或拒絕回答。這種「誠實的無知」 (Honest Ignorance) 在某些專業場景下，反而比強行回答更有價值。

Google推出全新「FACTS」基準測試專抓AI說謊！連最強模型準確率都不滿七成

分析觀點：建立AI的「信賴指標」

筆者認為，Google此時推出FACTS基準，其戰略意義在於重新定義AI競賽的規則。

過去兩年，各家大廠多半在比拚模型參數大小、生成速度或是多模態的應用廣度。但隨著AI開始進入醫療、法律與企業決策等嚴肅領域，「正確性」與「可信度」將成為下一階段的決勝關鍵。

FACTS基準的出現，就像是為AI產業制定了一套更嚴格的安規測試。69%的準確率雖然看起來不高，但也真實反映了LLM本質上仍是機率模型的事實。

對於開發者而言，這提供了一個明確的優化方向 (例如改善搜尋策略或增強拒答機制)；對於使用者來說，未來在選擇AI工具時，除了看它「多會寫」，更要看它「多誠實」。

更多Mashdigi.com報導：

SpaceX宣布將Starlink衛星軌道全面調降至480公里，應對「太陽極小期」、降低太空垃圾風險

PGG集團大秀肌肉！Ducky擴充多種鍵盤佈局、Streamplify搶攻直播主市場，散熱新品齊發

聯發科低調推新款主流處理器天璣7100，升級「4+4」大核架構、鎖定高CP值手機市場