一場人工智慧革命正在醫學領域醞釀

文 / 洪存正
完成住院醫師訓練,只是擔心沒有工作?
喬丹·珀奇克(Jordan Perchik)在伯明罕的阿拉巴馬大學(University of Alabama at Birmingham)開始了他的放射學住院醫師,接近他所謂的「人工智慧恐慌」的頂峰。那是2018年,就在計算機科學家傑弗里·辛頓(Geoffrey Hinton)宣布人們應該停止接受放射科醫師培訓的兩年後,因為機器學習工具很快就會取代他們。Hinton有時被稱為人工智慧(AI)教父,他預測這些系統很快就能比人類更好地閱讀和解釋醫學掃描和X射線。隨後,放射學課程的申請大幅下降。「人們擔心他們會完成住院醫師訓練,只是沒有工作,」Perchik說。
辛頓說得有道理。基於人工智慧的工具越來越多地成為醫療保健的一部分;超過500種已被美國食品和藥物管理局(FDA)授權用於醫學。大多數與醫學成像有關 - 用於增強圖像,測量異常或標記測試結果以進行隨訪。但即使在Hinton的預測七年後,放射科醫師仍然非常受歡迎。在大多數情況下,臨床醫師似乎對這些技術的性能感到不知所措。瑪麗安娜·倫哈羅(Mariana Lenharo)發表在最新一期《自然》(Nature)的<一場人工智慧革命正在醫學領域醞釀。會是什麼樣子?>( An AI revolution is brewing in medicine. What will it look like?)指出,新興的通才模型已經可以克服第一代機器學習工具的一些局限性。(Emerging generalist models could overcome some limitations of first-generation machine-learning tools for clinical use.)
科學與人工智慧新時代來臨
調查顯示,儘管許多醫師都知道臨床人工智慧工具,但只有一小部分(10%到30%之間)實際使用過它們。態度從謹慎樂觀到完全缺乏信任不等。「一些放射科醫師懷疑人工智慧應用的品質和安全性,」荷蘭烏得勒支大學醫學中心實施醫學創新專家Charisma Hehakaya說。她是一個團隊的一員,該團隊採訪了荷蘭的二十幾名臨床醫師和醫院經理,了解他們對2019年人工智慧工具的看法。她說,由於這種懷疑,最新的方法有時會被放棄。即使人工智慧工具完成了它們的設計目標,目前還不清楚這是否會轉化為對患者的更好護理。「這需要更有力的分析,」Perchik說。
克服醫療人工智慧目前的一些局限性
但似乎對一種有時被稱為通才醫療人工智慧的方法越來越興奮。這些是在海量數據集上訓練的模型,就像為ChatGPT和其他AI聊天機器人提供支援的模型一樣。在攝取大量醫學圖像和文本後,這些模型可以適應許多任務。雖然目前批准的工具具有特定的功能,例如在計算機斷層掃描(CT)胸部掃描中檢測肺結節,但這些通才模型將更像醫師一樣,評估掃描中的每個異常並將其吸收到類似診斷的東西中。
儘管人工智慧愛好者現在傾向於避開關於機器取代醫師的大胆主張,但許多人表示,這些模型可以克服醫療人工智慧目前的一些局限性,並且有朝一日可以在某些情況下超越醫師。「對我來說,真正的目標是讓人工智慧幫助我們做人類不太擅長的事情,」位於阿拉巴馬州伯明罕的美國放射學數據科學研究所首席醫療官放射科醫師Bibb Allen說。但是,在這些最新工具可用於現實世界的臨床護理之前,還有很長的路要走。
醫學人工智慧工具提供即時支援
醫學人工智慧工具為從業者提供支援,例如通過快速掃描並標記醫師可能想要立即查看的潛在問題。這樣的工具有時工作得很好。Perchik記得有一次AI分診為呼吸急促的人標記胸部CT掃描。那是淩晨3點——一個通夜班的中間。他優先考慮掃描,並同意AI的評估,即它顯示了肺栓塞,這是一種需要立即治療的潛在致命疾病。如果未標記,則掃描可能要到當天晚些時候才能進行評估。
但如果人工智慧犯了錯誤,它可能會產生相反的效果。Perchik說,他最近發現了一例AI未能標記的肺栓塞病例。他決定採取額外的審查步驟,這證實了他的評估,但放慢了他的工作速度。「如果我決定相信人工智慧並繼續前進,那可能就不會被診斷出來。
添加更多人工智慧驅動的工具
許多已批准的設備不一定符合醫師的需求,位於加利福尼亞州帕洛阿爾托的斯坦福大學醫學和成像人工智慧中心主任放射科醫師Curtis Langlotz說。早期的人工智慧醫療工具是根據成像數據的可用性開發的,因此已經為常見且易於發現的事物構建了一些應用程式。「我不需要幫助檢測肺炎」或骨折,Langlotz說。即便如此,有多種工具可用於協助醫師進行這些診斷。
另一個問題是,這些工具傾向於專注於特定任務,而不是全面解釋體檢——觀察圖像中可能相關的一切,同時考慮到之前的結果和人的臨床病史。「雖然專注於檢測一些疾病有一定的價值,但它並不能反映放射科醫師真正的認知工作,」在麻塞諸塞州波士頓哈佛醫學院從事生物醫學人工智慧工作的計算機科學家Pranav Rajpurkar說。
解決方案通常是添加更多人工智慧驅動的工具,但這也給醫療保健帶來了挑戰,倫敦谷歌健康的臨床研究科學家Alan Karthikesalingam說。考慮一個人進行常規乳房X光檢查。技術人員可能會得到用於乳腺癌篩查的人工智慧工具的説明。如果發現異常,同一個人可能需要磁共振成像(MRI)掃描來確認診斷,為此可能有單獨的AI設備。如果診斷得到證實,病變將通過手術切除,並且可能還有另一個AI系統來協助病理學。
監測人工智慧性能和安全性所涉及的挑戰
「如果你把它擴展到衛生系統的水準,你就可以開始看到對設備本身做出大量的選擇,以及關於如何集成、購買、監控、部署它們的大量決定,」他說。許多醫院沒有意識到監測人工智慧性能和安全性所涉及的挑戰,英國伯明罕大學研究健康人工智慧負責任創新的臨床研究員劉曉軒說。她和她的同事確定了數千項醫學成像研究,這些研究將深度學習模型的診斷性能與醫療保健專業人員的診斷性能進行了比較。對於團隊評估診斷準確性的69項研究,主要發現是大多數模型沒有使用真正獨立於用於訓練模型的信息的數據集進行測試。這意味著這些研究可能高估了模型的性能。
「現在在這個領域越來越廣為人知的是,你必須進行外部驗證,」劉說。但是,她補充說,「世界上只有少數機構非常清楚這一點」。如果不測試模型的性能,特別是在使用它的環境中,就不可能知道這些工具是否真的有説明。
大多數醫療AI設備都是使用監督學習開發
為了解決人工智慧工具在醫學中的一些局限性,研究人員一直在探索具有更廣泛功能的醫療人工智慧。他們受到革命性大型語言模型的啟發,例如 ChatGPT 的基礎模型。
這些是一些科學家稱之為基礎模型的例子。該術語由斯坦福大學的科學家於 2021 年創造,描述了使用一種稱為自監督學習的方法在廣泛的數據集(可能包括圖像、文本和其他數據)上訓練的模型。也稱為基礎模型或預訓練模型,它們構成了一個基礎,以後可以適應執行不同的任務。醫院已經使用的大多數醫療AI設備都是使用監督學習開發的。例如,用這種方法訓練模型來識別肺炎,需要專家分析大量胸部X射線並將其標記為「肺炎」或「非肺炎」,以教系統識別與疾病相關的模式。
基礎模型可能特別適合眼科
基礎模型中不需要註釋大量圖像,這是一個昂貴且耗時的過程。例如,對於 ChatGPT,大量文本用於訓練通過預測句子中的下一個單詞來學習的語言模型。同樣,倫敦Moorfields眼科醫院的眼科醫師Pearse Keane和他的同事使用1萬張視網膜照片和掃描來學習如何預測圖像缺失部分應該是什麼樣子。在模型在預訓練期間學習了視網膜的所有特徵后,研究人員引入了幾百張標記圖像,使其能夠瞭解特定的視力相關疾病,如糖尿病視網膜病變和青光眼。該系統在檢測這些眼部疾病以及預測可以通過眼睛血管的微小變化檢測到的全身性疾病方面比以前的模型更好,例如心臟病和帕金森氏症。該模型尚未在臨床環境中進行測試。
基恩說,基礎模型可能特別適合眼科,因為幾乎眼睛的每個部分都可以以高解析度成像。這些圖像的大量數據集可用於訓練此類模型。「人工智慧將改變醫療保健,」他說。「眼科可以成為其他醫學專業的榜樣。」
Karthikesalingam說,基礎模型是「一個非常靈活的框架」,並補充說,它們的特徵似乎非常適合解決第一代醫療人工智慧工具的一些局限性。
大型科技公司已經在投資使用多種圖像類型的醫學成像基礎模型 - 包括皮膚照片,視網膜掃描,X射線和病理切片 - 並結合電子健康記錄和基因組學數據。
六月,加利福尼亞州山景城谷歌研究院的科學家發表了一篇論文,描述了一種他們稱之為REMEDIS(「具有自我監督的強大而高效的醫學成像」)的方法,與使用監督學習訓練的AI工具相比,該方法能夠將診斷準確性提高多達11.5%。5.研究發現,在對未標記圖像的大型數據集進行預訓練模型后,只需要少量標記圖像即可獲得這些結果。「我們的主要見解是,REMEDIS能夠以非常有效的方式,通過很少的例子,學習如何在許多不同的醫學圖像中對許多不同的事物進行分類,」包括胸部X射線,數位病理學掃描和乳房X光檢查,Karthikesalingam說,他是該論文的合著者。
人工智慧工具作為科學政策顧問?潛力和陷阱
接下來的一個月,谷歌研究人員在預印本中描述他們如何將這種方法與該公司的醫療大語言模型Med-PaLM結合在一起,該模型幾乎可以像醫師一樣回答一些開放式醫學問題。結果是Med-PaLM Multimodal,這是一個單一的人工智慧系統,證明它不僅可以解釋胸部X射線圖像,還可以用自然語言起草醫療報告。
Microsoft還致力於將語言和視覺整合到一個醫療人工智慧工具中。六月份,該公司的科學家推出了LLaVA-Med(生物醫學的大型語言和視覺助手),該助手對圖像進行了訓練,這些圖像與從PubMed Central中提取的文本配對,PubMed Central是一個可公開訪問的生物醫學文章資料庫。「一旦你這樣做了,那麼你基本上可以開始與圖像進行對話,就像你與ChatGPT交談一樣,」計算機科學家Hoifung Poon說,他在Microsoft Health Futures領導生物醫學人工智慧研究,總部設在華盛頓州雷德蒙德。這種方法的挑戰之一是它需要大量的文本-圖像對。Poon說,他和他的同事現在已經從PubMed Central收集了超過46萬對。
使用數位病理學來預測腫瘤對免疫療法的反應
隨著這些模型在越來越多的數據上接受訓練,一些科學家樂觀地認為,他們可能能夠識別人類無法識別的模式。基恩提到了谷歌研究人員2018年的一項研究,該研究描述了能夠從視網膜圖像中識別一個人的特徵(如年齡和性別)的人工智慧模型。8.這是即使是經驗豐富的眼科醫師也無法做到的,基恩說。「因此,人們真的希望這些高維圖像中嵌入了大量的科學資訊。
根據Poon的說法,人工智慧工具可以超越人類能力的一個例子是使用數位病理學來預測腫瘤對免疫療法的反應。人們認為,腫瘤微環境 - 可以使用活檢採樣的癌性,非癌性和免疫細胞的環境 - 影響個體是否對各種抗癌藥物反應良好。「如果你能看到數以百萬計的患者已經服用了檢查點抑製劑或其他免疫療法,你看看特殊的反應者和無反應者,你就可以開始真正辨別出很多專家可能無法看到的模式,」Poon說。
使用人工智慧的培訓,而不是取代放射科醫師
他警告說,儘管人們對人工智慧設備的診斷潛力感到興奮,但這些工具的成功門檻也很高。人工智慧的其他醫療用途,例如將參與者與臨床試驗相匹配,可能會產生更直接的影響。
Karthikesalingam還指出,即使是谷歌的醫學成像AI取得的最佳結果,仍然無法與人類相提並論。「人類放射科醫師的X射線報告仍然被認為明顯優於最先進的多模式通才醫療系統,」他說。Karthikesalingam補充說,儘管基礎模型似乎特別準備好擴大醫療人工智慧工具的應用,但要證明它們可以安全地用於臨床護理還有很長的路要走。「雖然我們想大膽,但我們也認為負責任非常重要。
Perchik毫不懷疑人工智慧在他的放射學領域的作用將繼續增長,但他認為人們需要接受使用人工智慧的培訓,而不是取代放射科醫師。2020年,他為放射科醫師組織了免費的 AI 素養課程,該課程已擴展到美國各地的 25 個專案。「我們所做的很多工作都是揭開人工智慧的神秘面紗,管理炒作與人工智慧的現實,」他說。