【阮仲容專欄】每年80 萬美國人因診斷錯誤而死亡或永久殘疾

醫學界並沒有公開這個問題,但有許多研究強化了診斷錯誤的嚴重問題。最近的一項研究得出結論:「我們估計每年有近 80 萬美國人因診斷錯誤而死亡或永久殘疾。」 診斷錯誤是對患者疾病根本原因的不準確評估,例如錯過了心臟病發作或感染,或在正確的診斷為肺栓塞時錯誤地診斷為肺炎。儘管越來越多地使用醫學影像和實驗室測試來提高診斷準確性,但自2015 年美國國家科學、工程和醫學院的報告以來,沒有任何跡象表明有任何改進,該報告保守估計5% 的成年人經歷過這種情況每年都會出現一次診斷錯誤,大多數人一生中至少會經歷一次。ERIC J. TOPOL發表在最新一期《科學》(Science) 的<消除醫療診斷錯誤>( Toward the eradication of medical diagnostic errors)指出,造成這些錯誤的重要原因之一是在評估患者時未能考慮診斷。就診時間很短,沒有太多時間反思也就不足為奇了,因為它依賴於系統思維,它是自動的、近乎瞬時的、反射性的和直覺的。如果醫生有更多的時間思考、搜尋或查閱文獻並分析所有患者的數據(系統 2 思維),則可能會減少診斷錯誤。
生成式人工智慧提高醫療診斷準確潛力不斷擴大
人工智慧 (AI) 正在透過多種方式來提高診斷準確性。在使用訓練有素的捲積神經網路來解釋醫學影像的監督深度學習時代,有大量研究表明,人工智慧的支援可以提高準確性,而不僅僅是專家臨床醫生自己工作。一項針對 80,000 多名接受乳癌篩檢的女性進行的大型隨機乳房X 光檢查研究顯示,無論是否有放射科醫生的AI 支持,準確性均有所提高,螢幕閱讀工作量顯著減少了44 %。對 33 項大腸鏡檢查隨機試驗(無論有或沒有即時 AI 機器視覺)的系統分析表明,遺漏的息肉和腺瘤減少了50% 以上,而AI 為實現這種提高的準確性而增加的檢查時間平均僅10 s。
這些研究使用單峰、基於影像的深度神經網路模型。現在,隨著變壓器模型的進展,實現多模式輸入,生成式人工智慧在提高醫療診斷準確性方面的潛力不斷擴大。這相當於能夠輸入個人的所有數據,包括帶有非結構化文字的電子健康記錄、圖像檔案、實驗室結果等。
此類軼事案例不會改變醫學實踐方式
ChatGPT 發布後不久,就出現了有關其解決難以捉摸的漏診問題的潛力的軼事。例如,一名小男孩患有嚴重且不斷加劇的疼痛、頭痛、步態異常和生長停滯,導致他在 3 年內接受了 17 名醫生的評估,但沒有得到診斷。當他的母親將他的症狀輸入 ChatGPT 時,最終做出了隱匿性脊柱裂的正確診斷,這導致神經外科手術解除了他的脊髓,並取得了顯著的改善。同樣,一名婦女看了幾位初級保健醫生和神經科醫生,並被診斷為長新冠病毒,但沒有有效的治療方法。但她的親戚將她的症狀和實驗室檢查輸入ChatGPT,並得到邊緣腦炎的診斷,隨後通過抗體檢測證實了這一點,並且有一種已知的治療方法(靜脈注射免疫球蛋白)已成功使用。
大型語言模型 (LLM)的診斷準確率幾乎是醫生的兩倍
此類軼事案例不會改變醫學實踐方式,並且可能偏向積極結果,而 ChatGPT 的誤診不太可能受到關注。或者,使用馬薩諸塞州總醫院的病例記錄怎麼樣?該記錄涉及向高級臨床醫生提出的複雜診斷挑戰,具有 100 年的歷史,並且每兩週在《新英格蘭醫學雜誌》上作為臨床病理學會議( CPC) 發表一次?這是最近以預印本形式發表的一項隨機研究的重點。目標是對 300 多名 CPC 進行鑑別診斷,其中包括正確的診斷,將 20 名經驗豐富的內科醫生(平均醫療實踐時間為 9 年)的表現與大型語言模型 (LLM) 的表現進行比較。LLM的診斷準確率幾乎是醫生的兩倍,分別為 59.1% 和 33.6%。醫生在使用搜尋時表現出了進步,在獲得LLM學位後更是如此。這項工作證實並擴展了先前的 LLM 與醫生的診斷準確性比較,包括使用 GPT-4V 對 69 個 CPC進行的預印本研究以及使用 GPT-4評估 70 個 CPC 的研究的發表。但 CPC 是極其困難的診斷病例,通常不能代表醫療實踐。然而,它們可能是正確診斷罕見疾病的有用指標,例如使用 GPT-4 發現的罕見疾病(預印本)和罕見眼部疾病。
醫生對人工智慧的偏見可能是雙向的
另一種方法是使用醫療案例插圖來描述住院患者的常見情況。這是採用隨機設計進行的,以確定患者是否患有肺炎、心臟衰竭或慢性阻塞性肺病。使用標準人工智慧模型(而非LLM)提高了診斷準確性。然而,一些小插圖故意使用了系統性偏差模型,例如根據高齡給出更高的肺炎診斷機率,這導致準確性顯著降低,而向臨床醫生提供模型可解釋性並不能緩解這一問題。這項發現提出了自動化偏見的問題,錯誤地信任人工智慧,而醫生卻願意接受模型的診斷。另一項使用臨床小插圖對臨床醫生與 GPT-4 進行比較的研究發現,LLM表現出年齡、種族和性別偏見的系統跡象。
值得注意的是,醫生對人工智慧的偏見可能是雙向的。最近一項針對 180 名放射科醫師的隨機研究(無論是否有捲積神經網路支援)評估了解讀胸部 X 光片的準確性。儘管人工智慧在整體分析方面優於放射科醫生,但有證據表明存在明顯的異質性,一些放射科醫生表現出「自動化忽視”,對自己的閱讀高度自信,並低估了人工智慧的解釋。
需要解決傳播偏見的問題
總的來說,迄今為止的證據表明,生成式人工智慧確實有潛力提高醫療診斷的準確性,但需要解決傳播偏見的問題。早在人工智慧被考慮輔助使用之前,就有充分的證據表明醫生的偏見導致了醫療診斷錯誤,例如急診室對 40 歲以下人群的心臟病發作的誤診。GPT-4、Llama2和最近的Gemini等基本模型都利用這些人類內容偏差進行訓練,很少有LLM有專門的微調來改善醫學診斷,更不用說最新醫學知識的語料庫了。人們很容易忘記,沒有一個醫生能夠跟上有關大約 10,000 種人類疾病的所有醫學文獻。
當我最近與 Geoffrey Hinton 談論人工智慧提高醫療診斷準確性的前景時,他提供了一個有趣的觀點:「我總是以醫學為例來說明它可以做的所有好事,因為幾乎所有它要做的事情都是會很好的。……我們將有一位看過一億患者的家庭醫生,他們將成為更好的家庭醫生。” 同樣,OpenAI 的聯合創始人 Ilya Sutskever也強調了 AI 未來的醫療超級智能:「如果你有一台智能計算機,一個AGI(通用人工智能),它是為成為一名醫生而構建的,它將擁有完整且詳盡的知識:所有醫學文獻,都將擁有數十億小時的臨床經驗。”
我們當然還沒有做到這一點。但在未來的幾年裡,隨著我們實現構建功能更強大、醫療專用的人工智慧模型的願望和潛力,人工智慧將越來越有可能在透過自動化的System 2 機器思維提供第二意見方面發揮不可估量的作用,以幫助我們正在朝著消除診斷錯誤這一無法實現但有價值的目標邁進。