【嵇叔夜專欄】AI 掃描 RNA「暗物質」發現 7萬種新病毒

斯姆里蒂·馬拉帕蒂 Smriti Mallapaty發表在最新一期權威期刊《自然》(Nature)的< AI 掃描 RNA「暗物質」並發現 70,000 種新病毒>( AI scans RNA ‘dark matter’ and uncovers 70,000 new viruses)指出,這些許多都是奇異的,生活在鹽湖、熱液噴口和其他極端環境中。(Many are bizarre and live in salt lakes, hydrothermal vents and other extreme)
許多病毒很奇怪,與已知物種完全不同
研究人員利用人工智慧 (AI) 發現了 70,500 種以前科學界未知的病毒,其中許多病毒很奇怪,與已知物種完全不同。這些RNA病毒是透過宏基因組學來鑑定的,科學家在宏基因組學中對環境中存在的所有基因組進行採樣,而無需培養單一病毒。該方法展示了人工智慧探索 RNA 病毒宇宙「暗物質」的潛力。
病毒是普遍存在的微生物,可以感染動物、植物甚至細菌,但只有一小部分已被識別和描述。加拿大多倫多大學的計算病毒學家 Artem Babaian 表示,病毒「本質上是一個無底洞」有待發現。他說,其中一些病毒可能會導致人類疾病,這意味著對它們進行表徵可能有助於解釋神秘的疾病。
先前的研究已經使用機器學習在定序資料中尋找新病毒。本週發表在《Cell》雜誌上的最新研究進一步推進了這項工作,並用它來研究預測的蛋白質結構1。
該人工智慧模型採用了一種名為ESMFold的蛋白質預測工具,該工具由 Meta(前身為 Facebook,總部位於加州門洛帕克)的研究人員開發。倫敦谷歌 DeepMind 的研究人員開發了類似的人工智慧系統AlphaFold ,該系統本週獲得了諾貝爾化學獎。
RNA 病毒進化得很快
2022 年,Babaian 和他的同事搜尋了公開資料庫中存檔的 570 萬份基因組樣本,並鑑定了近 132,000 種新的 RNA 病毒。其他團體也做出了類似的努力。
但 RNA 病毒進化得很快,因此現有的從基因組序列資料中辨識 RNA 病毒的方法可能會遺漏很多病毒。一種常見的方法是尋找基因組中編碼 RNA 複製中使用的關鍵蛋白質的部分,稱為 RNA 依賴性 RNA 聚合酶 (RdRp)。但如果病毒中編碼這種蛋白質的序列與任何已知序列有很大不同,研究人員就無法辨識它。
中國深圳中山大學的演化生物學家、細胞研究的合著者施芒和他的同事們在公開的基因組樣本中尋找以前未被識別的病毒。
他們開發了一個名為 LucaProt 的模型,使用支援 ChatGPT 的「變壓器」架構,並向其輸入定序和 ESMFold 蛋白質預測資料。然後,他們訓練模型來識別病毒 RdRps,並用它在大量基因組數據中找到編碼這些酶的序列(這些序列屬於病毒的證據)。利用這種方法,他們鑑定出了約 16 萬種 RNA 病毒,其中包括一些特別長且在溫泉、鹽湖和空氣等極端環境中發現的病毒。其中不到一半以前沒有被描述過。巴巴安說,他們發現了「RNA病毒生物多樣性的一小部分,這些區域在演化空間的邊緣確實很遙遠」。
突然之間,你可以看到以前看不到的東西
「對於擴大病毒圈來說,這是一種非常有前途的方法,」位於吉朗的 CSIRO 澳洲疾病預防中心的進化病毒學家傑基·馬哈爾 (Jackie Mahar) 說。她說,表徵病毒將有助於研究人員了解微生物的起源以及它們如何在不同宿主中演化。
巴巴安說,擴大已知病毒庫可以更容易找到更多相似的病毒。 “突然之間,你可以看到以前看不到的東西。”
馬哈爾說,該團隊無法確定他們發現的病毒的宿主,應該進一步調查。研究人員特別感興趣的是了解這些新病毒是否會感染古細菌,古細菌是生命之樹的整個分支,目前還沒有明確的證據顯示 RNA 病毒可以感染古細菌。
施芒現在正在開發一個模型來預測這些新發現的RNA病毒的宿主。他希望這將有助於研究人員了解病毒在其環境生態位中的作用。