【包特金專欄】誰應該測試醫學AI工具

人工智慧程式可能對接受訓練的資料群體與他們旨在幫助的群體之間的差異特別敏感。此外,目前尚不清楚如何最好地告知患者及其家人這些技術並徵求他們的同意使用他們的數據來測試設備。一些醫院和醫療保健系統正在嘗試在醫學中使用和評估人工智慧系統的方法。隨著越來越多的人工智慧工具和公司進入市場,各團體正在聚集在一起,就哪種評估最有效、最嚴格尋求共識。瑪麗安娜·倫哈羅 Mariana Lenharo發表在最新一期《自然》(Nature)的<人工智慧在醫學領域的測試一團糟。這是應該如何完成的>( The testing of AI in medicine is a mess. Here’s how it should be done)指出,基於有限的臨床數據,數百種醫學演算法已獲得批准。科學家們正在爭論誰應該測試這些工具以及如何最好地進行測試。(Hundreds of medical algorithms have been approved on basis of limited clinical data. Scientists are debating who should test these tools and how best to do it.)分析其困境。
如何為每個需要醫學檢查的人加快近 3 小時
當德文·辛格(Devin Singh)還是一名兒科住院醫師時,他在急診室照顧了一名因長時間等待就醫而出現心臟驟停的小孩。 「我記得對這個病人進行心肺復甦,感覺那個孩子溜走了,」他說。辛格對孩子的死亡感到悲痛不已,他想知道是否可以透過縮短等待時間來避免這種情況的發生。這一事件促使他將自己的兒科專業知識與他的其他專業(電腦科學)結合起來,看看人工智慧 (AI) 是否有助於縮短等待時間。利用辛格目前工作的加拿大多倫多病童醫院 (SickKids) 的急診科分診數據,他和同事建立了一系列人工智慧模型,提供潛在的診斷並表明可能需要進行哪些測試。 「例如,如果我們可以預測患者患有闌尾炎的可能性很高並且需要進行腹部超音波檢查,那麼我們可以在患者到達後幾乎立即自動安排該測試,而不是讓他們等待 6 到 10 個小時才能看醫生,」他說。
一項使用 SickKids 超過 77,000 次急診就診的回顧性數據的研究表明,這些模果型將加快 22.3% 的就診速度,為每個需要醫學檢查的人加快近 3 小時的結。然而,人工智慧演算法在此類研究中的成功只是驗證這種干預是否會對現實生活中的人們有所幫助的第一步。
Ex-Meta 科學家首次推出巨型人工智慧蛋白質設計模型
正確測試用於醫療環境的人工智慧系統是一個複雜的多階段過程。但發布此類分析結果的開發人員相對較少。一篇綜述顯示,2020 年至 2022 年間,僅發表了 65 項人工智慧介入隨機對照試驗2。同時,美國食品藥物管理局(FDA)等監管機構已批准數百種人工智慧醫療設備在醫院和診所使用。
「醫療保健組織發現許多未經臨床驗證的批准設備,」加州洛杉磯 Cedars-Sinai 醫療中心的心臟科醫生 David Ouyang 說。一些醫院選擇自行測試此類設備。
儘管研究人員知道基於人工智慧的干預的理想臨床試驗應該是什麼樣子,但在實踐中,測試這些技術具有挑戰性。實施取決於醫療保健專業人員與演算法的互動程度:如果人類忽視其建議,再好的工具也會失敗。
誰在測試醫療人工智慧系統?
基於人工智慧的醫療應用程序,例如辛格建立的應用程序,通常被藥物監管機構(包括美國 FDA 和英國藥品和保健產品監管局)視為醫療設備。因此,審查和授權使用它們的標準通常不如藥品嚴格。只有一小部分設備(可能對患者構成高風險的設備)需要臨床試驗數據才能獲得批准。
許多人認為門檻太低。費城賓州大學的重症監護醫生加里·韋斯曼(Gary Weissman) 在審查其領域內經FDA 批准的人工智慧設備時發現,在他確定的10 種設備中,只有3 種在其授權中引用了已發表的數據。只有四個提到了安全性評估,但沒有一個包括偏差評估,該評估分析該工具的結果在不同患者組中是否公平。 「令人擔憂的是,這些設備確實可以並且確實會影響床邊護理,」他說。 “患者的生命可能取決於這些決定。”
數據的缺乏使醫院和醫療保健系統在決定是否使用這些技術時陷入困境。在某些情況下,經濟激勵措施會發揮作用。例如,在美國,健康保險計劃已經為醫院使用某些醫療人工智慧設備提供了補償,這使得它們在經濟上具有吸引力。這些機構也可能傾向於採用有望節省成本的人工智慧工具,即使它們不一定能改善患者護理。
歐陽表示,這些激勵措施可能會阻止人工智慧公司投資臨床試驗。 「對於許多商業企業來說,你可以想像他們正在付出更多的努力來確保他們的人工智慧工具是可報銷的並且具有良好的財務成果,因為他們認為這會推動採用,」他說。
一場人工智慧革命正在醫學領域醞釀。它會是什麼樣子?
根據市場情況,情況可能會有所不同。英國伯明翰大學研究人工智慧負責任創新的臨床研究員劉曉軒表示,例如,在英國,政府資助的全國性健康計畫可能會在醫療中心獲得特定產品之前設定更高的證據門檻。 「那麼,公司就有動力進行臨床試驗,」劉說。
一旦醫院購買了人工智慧產品,他們不需要進行進一步的測試,就可以像使用任何其他軟體一樣立即使用它。然而,一些機構認識到監管部門的批准並不能保證該設備真正有益。所以他們選擇自己測試。歐陽說,其中許多工作目前是由學術醫療中心進行和資助的。
阿姆斯特丹大學醫學中心重症監護醫學主任 Alexander Vlaar 和同一機構的麻醉師 Denise Veelo 於 2017 年開始了一項此類努力。 他們的目標是測試一種旨在預測低血流量發生的演算法手術期間的壓力。這種情況被稱為術中低血壓,可導致危及生命的併發症,如心肌損傷、心臟病發作和急性腎衰竭,甚至死亡。
該演算法由加州歐文市的 Edwards Lifesciences 公司開發,使用動脈波形資料——急診室或重症監護室監視器上顯示的帶有波峰和波谷的紅線。它可以在低血壓發生前幾分鐘進行預測,從而實現早期幹預。
Vlaar、Veelo 和他們的同事進行了一項隨機臨床試驗,在 60 名接受非心臟手術的患者身上測試該工具。在手術期間運行該設備的個體出現低血壓的中位數時間為 8 分鐘,而對照組的個體則為近 33 分鐘。
該團隊進行了第二次臨床試驗,證實該設備與明確的治療方案相結合,也可以在更複雜的環境中發揮作用,包括心臟手術期間和重症監護病房。結果尚未公佈。
成功不僅僅是因為演算法的精確性。麻醉師如何應對警報很重要。因此,研究人員確保讓醫生做好充分準備:「我們有一個診斷流程圖,其中包含收到警報時要採取的步驟,」維洛說。同樣的演算法未能在另一家機構進行的臨床試驗中顯示出益處。弗拉爾說,在這種情況下,「當警報響起時,床邊醫生沒有遵守規定採取行動」。
由於人類行為的可變性(無論是醫療保健專業人員還是接受治療的人),完美的演算法可能會失敗。
當明尼蘇達州羅徹斯特的梅奧診所測試內部開發的演算法來檢測稱為低射血分數的心臟病時,該中心的人機交互研究員芭芭拉·巴里(Barbara Barry)負責彌合開發人員與初級保健之間的差距使用該技術的提供者。
人工智慧工具正在設計可以改變醫學的全新蛋白質
該工具旨在標記可能患有這種疾病的高風險人群,這種疾病可能是心臟衰竭的徵兆,並且是可以治療的,但往往未被診斷出來。一項臨床試驗顯示該演算法確實提高了診斷率8。然而,在與提供者的對話中,巴里發現他們需要進一步指導如何與患者談論演算法的發現。這導致建議該應用程式如果廣泛實施,應包括與患者溝通的重要資訊的要點,以便醫療保健提供者不必每次都考慮如何進行對話。 「這是我們如何從務實的試驗轉向實施策略的一個例子,」巴里說。
另一個可能限制某些醫療人工智慧設備成功的問題是「警報疲勞」——當臨床醫生接觸大量人工智慧產生的警告時,他們可能會對這些警告變得不敏感。梅奧診所家庭醫學部主任戴維·拉什洛 (David Rushlow) 表示,在測試過程中應該考慮這一點。
「我們已經每天多次收到有關患者可能面臨風險的情況的警報。對於忙碌的一線臨床醫生來說,這實際上是一項非常艱鉅的任務,」他說。 「我認為其中許多工具將能夠幫助我們。但是,如果沒有準確地引入它們,預設情況下將只是繼續以同樣的方式做事,因為我們沒有足夠的頻寬來學習新的東西,」Rushlow 指出。
考慮偏見
測試醫療人工智慧的另一個挑戰是臨床試驗結果很難推廣到不同的族群。 「眾所周知,人工智慧演算法在用於與訓練資料不同的資料時非常脆弱,」劉說。她指出,只有當臨床試驗參與者能夠代表該工具將使用的族群時,才能安全地推斷結果。
此外,根據在擁有大量資源的醫院收集的資料進行訓練的演算法在資源匱乏的環境中應用時可能表現不佳。例如,加州帕洛阿爾託的 Google Health 開發的一種演算法用於檢測糖尿病視網膜病變(一種導致糖尿病患者視力喪失的疾病),理論上非常準確。但當該工具在泰國的診所使用時,其性能顯著下降。一項觀察性研究表明,泰國診所的照明條件導致眼睛影像品質低下,從而降低了該工具的有效性。
如何向患者介紹人工智慧技術使患者同意
目前,大多數醫療人工智慧工具可協助醫療保健專業人員進行篩檢、診斷或規劃治療。患者可能不知道此類技術正在接受測試或在他們的護理中常規使用,並且目前任何國家都沒有要求提供者披露這一點。
關於如何向患者介紹人工智慧技術,一直存在爭議。其中一些應用程式將患者同意問題列為開發人員最關心的問題。辛格和他的同事正在開發的人工智慧設備就是這種情況,該設備旨在簡化 SickKids 急診室對兒童的照顧。
這項技術的顯著不同之處在於,它將臨床醫生從循環中移除,使孩子——或其父母或照護者——成為最終使用者。
辛格說:“這個工具的作用是獲取緊急分診數據,做出預測,並讓家長直接批准(是或否)是否可以對孩子進行測試。”這減輕了臨床醫生的負擔並加速了整個過程。但它也帶來了許多前所未有的問題。如果病人出現問題,誰該負責?如果進行了不必要的測試,誰來支付費用? 「我們需要以自動化的方式獲得家人的知情同意,」辛格說。並且同意必須可靠且真實。 「這不可能像你註冊社交媒體時看到 20 頁的小字,然後你就點擊接受一樣,」Singh 說。
當辛格和他的同事等待資金開始對患者進行試驗時,該團隊正在與法律專家合作,並讓該國監管機構加拿大衛生部參與審查其提案並考慮監管影響。電腦科學家、SickKids 兒童醫學人工智慧計畫聯合主席 Anna Goldenberg 表示,目前「在監管方面有點像狂野的西部」。
採用醫療人工智慧工具之前進行自己的測試
各機構齊聚一堂,討論如何應對其中一些挑戰。一些專家表示,最好的方法是每個醫療機構在採用醫療人工智慧工具之前進行自己的測試。其他人指出,由於涉及成本,這是不可行的,因此研究人員和醫療保健組織正在探索其他選擇。
醫療人工智慧專家 Shauna Overgaard 表示:“這對於大型組織來說已經很困難,對於小型組織來說則更加困難。”她共同領導了梅奧診所的人工智慧驗證和管理研究項目,該項目旨在以標準化和集中的方式測試醫療人工智慧工具,以便它們可以在梅奧診所醫療系統附屬的社區醫療機構中使用。
Overgaard 也是健康人工智慧聯盟的成員,該聯盟包括來自工業界、學術界和患者權益團體的代表。該聯盟由Google、亞馬遜、微軟和 CVS Health 等公司資助,提議創建一個健康人工智慧保證實驗室網絡,該網絡將使用一套商定的原則以集中的方式評估模型。
北卡羅來納州達勒姆杜克健康創新研究所的臨床資料科學家 Mark Sendak 表示,這種集中式方法並不理想。 「每個環境都需要有自己的內部功能和基礎設施來進行測試,」他說。
他是 Health AI Partnership 的成員,該組織由學術界和醫療保健組織組成。該合作已獲得帕洛阿爾托戈登和貝蒂摩爾基金會的初始資金,旨在為任何組織建立能力並提供技術援助,以便能夠在本地測試人工智慧模型。
Nina Kottler 是一名放射科醫生,也是美國一家大型醫學影像實踐機構 Radiology Partners 的臨床人工智慧副首席醫療官,她也認為當地驗證至關重要。她希望這些研究的見解可以用來教育將操作這些工具的專業人員。她說,人的因素將是最重要的。 「醫療保健領域幾乎沒有人工智慧是自主的,」她說。 “我們必須開始考慮如何確保我們測量的準確性,不僅是人工智慧的準確性,還有人工智慧加上最終用戶的準確性。”