ChatGPT擊敗實習醫師!AI診病表現驚豔 判斷這類疾病準度高

英國比較AI與實習醫師診病能力,竟發現ChatGPT優於實習醫師。(圖/達志影像美聯社)
英國比較AI與實習醫師診病能力,竟發現ChatGPT優於實習醫師。(圖/達志影像美聯社)

隨著人工智慧(AI)科技快速進步,如今AI機器人已經能取代不少工作與業務,就連負責看診的醫師們,都可能面臨挑戰與威脅。一項最新研究指出,如今市面上三大生成式人工智慧機器人ChatGPT、Bard與Bing,經過諸多實際案例測驗後,發現ChatGPT在診斷呼吸道疾病上,表現優於實習醫師,至於由谷歌研發的Bard(目前更名為‎Gemini),表現則比人類醫師略優;而微軟開發的Bing系統,診斷表現與實習醫師持平。

根據英國《每日電訊報》報導,這項在歐洲呼吸學會上發表的新研究顯示,從正面結果來看,未來透過大型語言模型(LLMs),可以幫助醫療人員更有效率地進行評估病患,減輕整個醫療系統所面臨的巨大壓力;但相對地,也給現任醫師們更多壓力,因為機器人如今也能和他們一樣,對病患進行症狀評斷。這項研究找來10位、兒科臨床經驗不到4個月的實習醫生,給予他們一小時時間,使用網路(但不能使用AI機器人)來解決,由兒童呼吸專家所設計的一系列案例,這些案例考驗中,沒有給出明確的診斷結果。一小時後,研究人員針對實習醫生的答案進行評分,並與機器人的解答進行比較。研究團隊發現,ChatGPT 3.5版獲得最高評分,其答案被認為、比其他系統的機器人「更像人類」。

團隊主持人納拉亞南醫師表示,他的這項研究,是為了評估大型語言模型,能否在實際生活中、真正在臨床上協助醫生執業。而研究人員在檢查答案時,並沒有發現有任何一個AI機器人出現「幻覺」,也就是AI模型自行編造與事實不符的情況。除了ChatGPT獲得高分肯定,Bing和Bard整理的答案中,與菜鳥實習醫師一樣,都存在答非所問的說明,研究團隊表示,這也是他們接下來要優先解決的問題之一。

根據英國醫療智庫「健康基金會」7月的調查,英國超過一半的民眾和3/4醫療人員,支持在醫療系統中引入人工智慧。但受訪者們同時也認為,AI系統雖然便利,卻無法表現出「真正的同理心」或「善意」,那將是該科技的最大缺點之一。納拉亞南醫師團隊表示,完成實習醫師測試後,他們接下來還將進行資深醫師與不同科別測試,藉此更新和調整大型語言模型,讓AI能真正成為有用的醫護幫手。

更多 TVBS 報導
時代雜誌「AI百大人物」出爐!黃仁勳、蘇姿丰、台積電魏哲家上榜
網蒐數十億人臉影像開發系統 美AI企業遭荷蘭重罰10億
法總統:歐洲AI有點落後!好萊塢驚悚「AI反撲」新片首映
晶片市場競爭激烈!輝達設立「AI廠房」 加強垂直化經營