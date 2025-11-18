重點一：依據 AA‑Omniscience 顯示，多數大型語言模型在高難度知識題上「猜錯比答對多」，僅三款例外；核心指標 Omniscience Index 以懲罰幻覺衡量可靠度。

重點二：在全知指數上，Claude 4.1 Opus因較低幻覺率領先；GPT‑5.1與 Grok 4則多靠較高準確率。

重點三：各模型在不同領域表現不一，沒有「一款通吃」。例如 Claude 4.1 Opus在法律、軟體工程、人文社科較穩

先進 AI 大模型雖然越來越強，但近期一份報告指出，在「少幻覺、敢承認不知道」這件事上，仍然是不及格。

第三方 AI 模型評比平台 Artificial Analysis 於 11 月 18 日公布全新基準「AA‑Omniscience（全知指標）」指出，在面對高難度知識題時，當前主流大型語言模型（LLMs）「猜錯比答對多」，僅有三款模型例外。

該評測以「Omniscience Index（全知指數）」為核心，採用加權懲罰幻覺（錯誤作答）的方法：答對加一分、錯誤且有作答扣一分、選擇不作答記零分，從而衡量「知識可靠度」，而非僅看正確率。

團隊強調，模型的嵌入知識對真實世界應用至關重要；在知識不足時，模型易做出錯誤假設。且即便有工具如網路搜尋輔助，模型也須「先知道該搜什麼」。例如，遇到「MCP」查詢時，不應錯把「Multi Client Persistence」當答案，而應辨識為「Model Context Protocol（模型上下文協定）」。

低幻覺的 Claude vs. 高正確率的 Grok／GPT

Artificial Analysis 指出，在整體「事實可靠度」（Omniscience Index）排名上，Anthropic 的 Claude 4.1 Opus 居首，其優勢主要來自「低幻覺率」。相較之下，OpenAI 與 xAI 的模型則以較高「正確率」拉升名次，但因更傾向在不確定時「冒險作答」，而非「不懂就閉嘴」，因此可靠度未達頂尖水準。

純以「正確率」衡量時，xAI 的 Grok 4 居首，OpenAI 的 GPT‑5 與 Google 的 Gemini 2.5 Pro 緊隨。Artificial Analysis 也提及伊隆·馬斯克近期披露 Grok 4「總參數達 3 兆」，暗示大模型規模與前訓練算力或許是支撐其正確率表現的因素。

最可靠AI有哪些？ 圖/Artificial Analysis

值得注意的是，在「幻覺率」榜單上，Anthropic 三款機型包辦最低幻覺率前段班：Claude 4.5 Haiku 以約 26% 領先，Claude 4.5 Sonnet 與 Claude 4.1 Opus 分列其後。這也呼應評測核心觀點：高知識並不必然等於低幻覺；能否在不確定時「選擇不作答」是可靠度的關鍵。

知識量不等於可靠度！AI 懂更多，卻未必說得對

Artificial Analysis 團隊在報告中指出，AA‑Omniscience 涵蓋 6,000 題、42 主題、6 大領域（商業、人文與社會科學、健康、法律、軟體工程、工程與數學），並細分 89 子題（如 Python 資料函式庫、公共政策、稅務等），更細緻地刻畫各模型的強弱。

結果顯示： 各模型在不同領域輪流領先，並無「全能王」。 例如，Claude 4.1 Opus 在法律、軟體工程、人文社科領先；OpenAI 的 GPT‑5.1 在商業題表現最可靠；xAI 的 Grok 4 則在健康與「科學、工程與數學」領域居前。

AI 在六個領域的「可靠度分數」 圖/Artificial Analysis

另一個發現是，模型規模與正確率正相關，但不必然提升可靠度。

白話說，模型越大，代表知識量越多，所以在「正確率」排行榜表現亮眼；但由於「可靠度」看的是遇到不確定時會不會硬答、造成幻覺。因此，像 Kimi K2 Thinking 和 DeepSeek R1（0528） 雖然答對比例高，遇到不熟的題目仍可能胡亂作答，拉低了「全知指數」。

反過來說，Llama 3.1 405B 雖然不是最大的，但更懂得在不確定時不作答，幻覺率較低，整體「可靠度」因此勝過規模更大的 Kimi K2 款式。

結論：選用 AI 的建議，也是「誠實為上」

總結來說，AA‑Omniscience 的證據顯示：能在不確定時停手、降低幻覺的模型，才在真實場景更可靠；僅看準確率，會把「會猜」誤認為「會答」。因此，選擇模型時，應以事實可靠度、幻覺率與拒答行為為核心準則，並依領域差異做選擇。

最後，模型規模與準確率雖有正相關，但並不直接降低幻覺；縮減幻覺更依賴訓練與校準機制。基於此，企業在落地知識密集型任務時，應優先採用「校準佳、願意在不確定時拒答」的模型。

資料來源：AA‑Omniscience、Artificial Analysis

本文初稿為AI編撰，整理．編輯/ 李先泰

