【劉伯倫專欄】Google AI 比人類醫生有更好的臨床態度及診斷

經過訓練進行醫療訪談的人工智慧(AI) 系統在與模擬患者交談並根據患者病史列出可能的診斷方面的表現可與人類醫生相媲美甚至超越。該聊天機器人基於Google開發的大型語言模型(LLM),在診斷呼吸系統和心血管疾病等方面比經過委員會認證的初級保健醫生更準確。與人類醫生相比,它在醫療訪談中獲得了相似的資訊量,並且在同理心方面排名更高。
瑪麗安娜·倫哈羅 Mariana Lenharo發表在最新一期《自然》(Nature)的<谷歌人工智慧比人類醫生有更好的臨床態度,並且可以做出更好的診斷>( Google AI has better bedside manner than human doctors — and makes better diagnoses)說,研究人員表示,他們的人工智慧系統可以幫助實現醫學民主化。(Researchers say their artificial-intelligence system could help to democratize medicine.)
世界準備好迎接 ChatGPT 治療師了嗎?
「據我們所知,這是第一次針對診斷對話和獲取臨床病史進行最佳設計的對話式人工智慧系統,」倫敦 Google Health 的臨床研究科學家、該書的合著者 Alan Karthikesalingam 說道。於1 月11 日發佈在arXiv 預印本儲存庫中。它尚未經過同行評審。
這款聊天機器人被稱為 Articulate Medical Intelligence Explorer (AMIE),目前仍處於純粹的實驗階段。它還沒有在患有真正健康問題的人身上進行過測試——只在經過訓練來扮演患有健康問題的人的演員身上進行過測試。「我們希望謹慎和謙虛地解釋結果,」卡蒂克薩林加姆說。
儘管聊天機器人距離臨床護理還很遠,但作者認為它最終可能在醫療保健民主化方面發揮作用。麻州波士頓哈佛醫學院的內科醫生 Adam Rodman 表示,該工具可能會有幫助,但它不應該取代與醫生的互動。「醫學不僅僅是收集資訊,它還涉及人際關係,」他說。
學習一項微妙的任務
很少有人將法學碩士應用於醫學領域,探索這些系統是否可以模仿醫生獲取個人病史並利用其做出診斷的能力。羅德曼說,醫學院的學生花了很多時間進行訓練來做到這一點。“這是向醫生灌輸的最重要和最困難的技能之一。」
加州山景城 Google Health 的人工智慧研究科學家、該研究的合著者 Vivek Natarajan 表示,開發人員面臨的一個挑戰是缺乏可用作訓練資料的現實世界醫療對話。為了應對這項挑戰,研究人員設計了一種讓聊天機器人訓練自己的「對話」的方法。生成式人工智慧可能會徹底改變醫療保健——但如果將控制權讓給大型科技公司,情況就不會如此
研究人員利用現有的現實世界資料集(例如電子健康記錄和轉錄的醫療對話)對基礎大型語言模型(LLM)進行了第一輪微調。為了進一步訓練模型,研究人員要求法學碩士扮演患有特定病症的人,以及富有同理心的臨床醫生,旨在了解該人的病史並設計潛在的診斷。
團隊還要求該模型扮演另一個角色:扮演批評者的角色,評估醫生與接受治療的人的互動,並就如何改善這種互動提供回饋。該批評用於進一步培訓法學碩士並產生改進的對話。
為了測試該系統,研究人員招募了 20 名接受過模擬患者培訓的人員,並讓他們與 AMIE 和 20 名經過委員會認證的臨床醫生進行線上文字諮詢。他們不知道自己是在跟人類還是機器人聊天。演員們模擬了 149 個臨床場景,然後被要求評估他們的經驗。一組專家也對 AMIE 和醫生的表現進行了評估。
AMIE 在測試中表現出色
人工智慧系統在所有六個醫學專業中的診斷準確性均達到或超過了醫生的診斷準確性。該機器人在 26 項對話品質標準中的 24 項上優於醫生,包括禮貌、解釋病情和治療、給人誠實的印像以及表達關心和承諾。
「這絕不意味著語言模型在獲取臨床病史方面比醫生更好,」Karthikesalingam 說。他指出,研究中的初級保健醫生可能不習慣透過文字為主的聊天與患者互動,這可能會影響他們的表現。
Karthikesalingam 表示,相比之下,大型語言模型(LLM)有一個不公平的優勢,那就是能夠快速撰寫冗長且結構精美的答案,使其能夠始終如一地體貼而不會感到疲倦。
我們想要:公正的聊天機器人
他說,這項研究的下一步重要一步是進行更詳細的研究,以評估潛在的偏見,並確保系統對不同族群是公平的。谷歌團隊也開始研究對患有真正醫療問題的人進行系統測試的道德要求。
新加坡杜克-新加坡國立大學醫學院的臨床人工智慧科學家 Daniel Ting 同意,探究系統中的偏見對於確保演算法不會懲罰那些在訓練資料集中沒有很好體現的種族群體至關重要。
丁說,聊天機器人用戶的隱私也是需要考慮的重要面向。「對於目前許多商業大型語言模型平台,我們仍然不確定數據儲存在哪裡以及如何分析數據,」他說。