【曾子固專欄】Google AI利用人的咳嗽來診斷疾病

經過數百萬人類音訊片段訓練的機器學習系統顯示出檢測 COVID-19 和結核病的前景。未來音頻組學領域將人工智慧工具與咳嗽等人類聲音結合,以評估健康狀況。瑪麗安娜·倫哈羅 Mariana Lenharo發表在最新一期《自然》(Nature)的<谷歌人工智慧很快就能利用人的咳嗽來診斷疾病>( Google AI could soon use a person’s cough to diagnose disease)
人工智慧從視網膜影像中檢測眼部疾病和帕金森氏症風險
由Google科學家領導的團隊開發了一種機器學習工具,可以透過評估咳嗽和呼吸等噪音來幫助檢測和監測健康狀況。人工智慧 (AI) 系統1經過數百萬個人類聲音的音頻片段的訓練,有一天可能會被醫生用來診斷包括 COVID-19 和結核病在內的疾病,並評估一個人的肺部功能狀況。
這並不是研究小組第一次探索使用聲音作為疾病的生物標記。這個概念在 COVID-19 大流行期間受到關注,當時科學家發現可以透過人類的咳嗽來檢測呼吸道疾病2。
谷歌系統的新穎之處在於它所訓練的海量資料集,以及它可以微調以執行多項任務的事實——稱為健康聲學表示(HeAR)。研究人員於本月稍早在預印本1中報告了該工具,但尚未經過同行評審,他們表示,現在判斷 HeAR 是否會成為商業產品還為時過早。目前,計劃是讓有興趣的研究人員訪問該模型,以便他們可以在自己的研究中使用它。「作為谷歌研究的一部分,我們的目標是刺激這個新興領域的創新,」參與該計畫的紐約谷歌產品經理 Sujay Kakarmath 說。
如何訓練你的模型
該領域開發的大多數人工智慧工具都是根據錄音(例如咳嗽聲)進行訓練的,這些錄音與發出聲音的人的健康資訊相符。例如,剪輯可能會被標記為表明該人在錄製時患有支氣管炎。該工具在稱為監督學習的訓練過程中將聲音特徵與資料標籤關聯起來。
谷歌人工智慧比人類有更好的臨床態度,並可做出更好的診斷
「在醫學領域,傳統上,我們一直在使用大量監督學習,這很棒,因為你有臨床驗證,」坦帕南佛羅裡達大學的喉科醫生 Yael Bensoussan 說。“缺點是它確實限制了您可以使用的數據集,因為缺乏帶註釋的數據集。”
相反,谷歌研究人員使用了自我監督學習,它依賴未標記的數據。透過自動化流程,他們從公開的 YouTube 影片中提取了超過 3 億個咳嗽、呼吸、清喉嚨和其他人類聲音的短聲音片段。
每個剪輯都被轉換為聲音的視覺表示,稱為頻譜圖。然後,研究人員屏蔽了頻譜圖的各個部分,以幫助模型學習預測缺失的部分。這類似於聊天機器人 ChatGPT 背後的大型語言模型在接受無數人類文字範例的訓練後如何預測句子中的下一個單字。使用這種方法,研究人員創建了他們所謂的基礎模型,他們說該模型可以適用於許多任務。
高效率的學習者
就 HeAR 而言,Google團隊對其進行了改造,以檢測 COVID-19、結核病以及一個人是否吸煙等特徵。由於該模型接受瞭如此廣泛的人類聲音的訓練,為了對其進行微調,研究人員只需向其提供非常有限的標有這些疾病和特徵的數據集。
在 0.5 代表模型的表現不比隨機預測好、1 代表每次都能做出準確預測的模型的尺度上,HeAR 在 COVID-19 檢測方面的得分為 0.645 和 0.710,取決於測試的資料集 —比在語音資料或一般音訊上訓練的現有模型具有更好的性能。對於結核病,得分為0.739。
一場人工智慧革命正在醫學領域醞釀。它會是什麼樣子?
卡卡馬斯說,原始訓練資料如此多樣化——音質和人力資源各不相同——這一事實也意味著結果是可以推廣的。俄克拉荷馬大學塔爾薩分校的工程師阿里伊姆蘭 (Ali Imran) 表示,Google使用的大量數據對這項研究具有重要意義。「這讓我們相信這是一個可靠的工具,」他說。
Imran 領導了一款名為 AI4COVID-19 的應用程式的開發,該應用程式在區分 COVID-19 咳嗽與其他類型的咳嗽方面表現出了良好的前景3。他的團隊計劃向美國食品和藥物管理局(FDA)申請批准,以便該應用程式最終能夠推向市場;他目前正在尋求資金來進行必要的臨床試驗。到目前為止,還沒有 FDA 批准的工具可以透過聲音進行診斷。
Bensoussan 表示,健康聲學或「音頻組學」領域前景廣闊。「聲學科學已經存在了幾十年。不同的是,現在,借助人工智慧和機器學習,我們有能力同時收集和分析大量數據。” 她是研究聯盟的共同領導者,專注於探索聲音作為追蹤健康的生物標記。
她說,「不僅在診斷方面具有巨大的潛力,而且在篩檢方面也具有巨大的潛力」和監測。「我們不能每週重複掃描或活檢。這就是為什麼聲音成為疾病監測非常重要的生物標記物,」她補充道。“它不是侵入性的,而且資源很少。”