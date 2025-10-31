45% AI 助理亂報新聞？Gemini、ChatGPT 問題最大！ BBC、EBU 聯合研究揭示 AI 助理的嚴重缺陷
在歐洲廣播聯盟 EBU 協調、BBC 主導的跨國研究中，研究團隊以 18 個國家、14 種語言、22 家公共媒體參與，實測四大主流 AI 助理（ChatGPT、Copilot、Gemini、Perplexity）對新聞相關提問的表現；結果顯示，超過 3,000 條回應中有 45% 至少出現一項重大問題，31% 涉及來源缺失或誤導，20% 有嚴重準確性錯誤或過時資訊，問題跨語言與地域一致，屬系統性失真。
高達 45% 的 AI 助理回答存在重大問題
研究由專業記者依四項關鍵標準評估 AI 回應：準確性、來源處理、事實與意見分野、脈絡補充；樣本涵蓋英語以外多種語言，並在多個市場重複驗證，以檢視是否存在跨平台、跨語言的一致偏差模式。
四大助理均被觀察到失真問題，其中多數與來源不透明或引用錯置有關；研究並指出部分工具在處理來源與時效資訊時表現特別薄弱，導致過時或無法追溯的陳述更常見。
AI 新聞的信任危機
45% 回應含重大問題、31% 為來源缺陷、20% 為嚴重錯誤或過時，顯示生成式摘要容易以「看似自信」的語氣包裝不準確內容。
年輕族群將 AI 作為新聞入口的比例升高，資訊失真不僅影響個人判斷，也可能削弱對媒體與公共機構的信任，進而影響民主參與與公共討論品質。
Gemini（Google）
表現最差：研究指出 Gemini 的「重大問題」比例最高，達約 76%，主要由於「來源處理」嚴重失準與不透明，72% 回應涉及重要來源問題（缺失、誤引、無法追溯）。
典型失誤：曾對法規政策變動作出不準確敘述，亦在部分案例中提供難以驗證或不相關的引用，導致讀者無法還原原始報導脈絡。
ChatGPT（OpenAI）
中度問題：整體仍有顯著失真的情況，但明顯低於 Gemini；在「重大問題」與「來源問題」兩項的比例，均低於約三至四成與 25% 的分水位。
典型失誤：曾在領袖人物近況等時效性極高的議題上提供過時資訊，顯示對新聞時點與更新節點的掌握有風險。
Copilot（Microsoft）
中度問題：與 ChatGPT 相近，重大問題比例約在三至四成以下、來源問題低於約 25%，但仍存在不小比例的過時或脈絡不足，需使用者自我查核與補充。
風險樣態：在多語環境下的引用一致性與語境轉換偶有偏差，對多來源交叉印證的要求較高。
Perplexity
相對較佳但仍不可靠：重大問題比例略低於 ChatGPT 與 Copilot，來源問題也低於約 25%；但在新聞題材上仍出現不準確與脈絡不足的案例，不宜單一依賴。
廠方自述 vs 研究觀察：Perplexity 對外宣稱某些「Deep 模式」事實準確率達 93.9%，但研究對「一般用戶面向的消費級版本」仍觀察到系統性問題，提醒用戶不要將廠方測試數據等同於日常新聞問答表現。
跨工具共通問題
系統性失真：四款工具均出現失真，研究總體發現 45% 回應有重大問題，31% 來源缺陷，20% 準確性嚴重錯誤或過時，跨語言與地域一致，顯示不是個別事件。
來源為最大痛點：來源缺失、誤引、不相關引用普遍，且往往以自信語氣呈現，易誤導不熟題材的讀者；時效性（是否為最新版本）亦是常見致命位。
業界呼籲改善 AI 新聞內容
EBU 與 BBC 同步發佈「News Integrity in AI Assistants」報告與工具包，聚焦兩大問題：何謂高品質的 AI 新聞回應、哪些失真最需優先修補；並呼籲科技公司、新聞機構與監管者協作，提升來源透明、標示 AI 內容、改善訓練數據與建立獨立審核機制。
研究延續 BBC 於 2025 年 2 月的先導結果，擴大樣本後確認問題具有普遍性與一致性；多家公共媒體（如 NPR、DW 等）亦發布相近觀察，支持外部可驗證性。
台灣讀者要如何善用 AI 助理看新聞？
本地讀者愈常以 AI 助理作為突發與國際議題的入口，最易受「缺來源、過時、錯置事實與評論」的摘要影響；在金融、公共衛生與政策相關資訊上，更需額外查核及回看原刊版本。
實用做法包括：要求列出清晰可點擊來源、檢視回應日期與版本、交叉比對公共媒體與官方文件、對無法追溯的結論保持保留；對平台端則應倡議來源透明、版本追蹤與接受獨立審核。
更多內容：
Largest study of its kind shows AI assistants misrepresent news content 45% of the time – regardless of language or territory
