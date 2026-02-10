隨著人工智慧（AI）愈發便利，如今許多人一旦面臨身體出狀況或有異樣，第一反應往往不是尋求專業醫護人員諮詢，或是掛號看診治療，反倒是先上網「詢問」機器人，就如同十多年當Google主宰你我生活之際，會向谷歌大神諮詢生活一切疑難雜症。

但根據牛津大學（Oxford University）研究團隊，最新發表在《自然醫學》（Nature Medicine）期刊的研究報告，這些被捧成「神醫」AI機器人診斷準確率，恐怕還不如你自己透過Google搜尋得到的結果。

考試滿分，實戰卻「掉漆」

《法新社》報導指出，這項研究是由牛津大學里貝卡（Rebecca Payne）博士主導執行，他們揭開一個「令人不安的現狀」：雖然AI機器人，能在各國醫師執照考試中，幾乎能拿到滿級高分過關，但在處理真實人類的病痛時，它們表現卻比預期差了一大截。

研究團隊邀請1300名英國成年人，模擬10種常見健康情境，像是飲酒後頭痛、產後疲勞及膽結石症狀等，並要求受試者透過不同工具，協助判斷病因與是否需就醫。

Google旗下的生成式AI平台Gemini。（美聯社）

受試者會被隨機分配使用，三款主流AI聊天機器人：OpenAI的GPT-4o、Meta的Llama 3，以及Command R+，另設一組僅使用搜尋引擎的對照受試者。結果顯示，AI正確判斷健康問題的準度，僅33%；正確判斷就醫也只有45%，與直接使用搜尋引擎並無差別。

資訊落差無解

研究主持人麗貝卡博士指出，問題不在AI的醫學知識，而在人機溝通斷層。她強調、真實的使用情境中，多數使用者並不能能「完整提供症狀資訊」，也常誤解、忽略甚至錯誤解讀AI所給的建議，與標準化測試中的「模擬病人」，存在巨大落差。

「再先進的模型，也無法彌補資訊不完整與理解錯誤的風險。」

另一個數據則顯示，目前每6名美國成年人當中，至少有一人、每月會至少向A 詢問一次健康資訊，而這個比例仍在持續上升增加。

荷蘭馬斯垂克大學（Maastricht University）生物學者大衛（David Shaw）提到，研究很清楚地告訴我們，聊天機器人對公共健康存在潛在威脅，「民眾應該只把AI視為輔助工具，正確醫療資訊來源，仍應透過像是英國國民保健署（NHS）等可靠機構取得。

儘管多數大型語言模型，已能在醫師國考與專業測驗中取得高分，但研究團隊一致認為，當前AI機器人、尚不足以擔任「虛擬醫師」角色。特別在缺乏即時臨床判斷、風險分級與責任歸屬機制之前，倘若過度信賴AI問診，反而可能導致誤判病情，進而延誤治療、甚至危及自己生命。

