曾引起人工智能、生命科學兩界大地震,DeepMind背後的AlphaFold2是什麼來頭?

7月15日,總部位於倫敦的DeepMind(2014年被谷歌收購)發布了其深度學習神經網絡AlphaFold2的開源版本,並在《自然》雜志上的一篇論文中描述了其方法,據悉該神經網絡在去年的蛋白質結構預測競賽中佔據主導地位。

與此同時,另一個學術團隊已基於AlphaFold2開發出了自己的蛋白質預測工具——RoseTTaFold,從7月15日發表的一篇科學論文中的描述來看,RoseTTaFold系統幾乎和AlphaFold2一樣強大。

伊利諾伊芝加哥大學(University of Illinois at Chicago)計算生物學家徐金波(音譯)表示:“這些工具的開源性意味著科學界應該能夠在進步的基礎上,創造出更強大、更有用的軟件。”

01 一場改變游戲規則的比賽

AlphaFold 首次登場是在 2018 年的最後一屆 CASP 中,雖首次參賽但成績仍名列前茅。或許部分讀者對DeepMind這家總部位於倫敦創業公司並不熟悉,但說到其產品可能就無人不知、無人不曉了,例如引起擊敗李世石、柯潔的AlphaGO。而首次登場的AlphaFold 也即將帶來一場生物科學界的大地震。

“這改變了游戲規則,”德國生物學家安德烈·盧帕斯表示:“在CASP不同團隊中就DeepMind與眾不同,其AlphaFold已經幫助我找到了困擾我十年的一種蛋白質的結構,預計它會改變我的工作方式和處理問題的邏輯、改變醫學、改變研究、改變生物工程、改變一切。”

不過對於AlphaFold 一些科學家還是表示不能有太高期望,在某些情況下的結構預測與使用"黃金標准"實驗方法(如 X 射線晶體學和近年來低溫電子顯微鏡)確定的預測沒有區別。AlphaFold 也許還不能避免這些費力和昂貴的方法的需求,但人工智能將使得以新的方式研究生物成為可能。

圖片來源:nature

但DeepMind的進化速度遠遠超出預期。2020年初,該公司發布了對少數SARS-CoV-2蛋白質結構的預測,這些蛋白質雖然尚未通過實驗確定,但加州大學伯克利分校的分子神經生物學家史蒂芬·布羅霍恩卻表示:“DeepMindDeepMind對一種叫做Orf3a的蛋白質的預測最終與後來通過低溫EM確定的非常相似,他們能夠做的事情令人印象深刻。”

當然引發生命科學界大震動的還是在2020年末, AlphaFold2 基於氨基酸序列近乎完美地精確預測出了蛋白質三維結構,其預測水準與實驗室水平相差無幾,一舉破解了困擾學界長達五十年之久的“蛋白質折疊”難題。

Science 驚呼,“科學研究的游戲已經改變了。”

02 AlphaFold2能夠解決生命科學哪些問題

在生命科學領域採用AI研究預測的並不只有DeepMind一家,近期華盛頓大學醫學院蛋白質設計研究所 David Baker 教授領導生物信息學家團隊也開發出了一款名為 RoseTTAFold 的深度學習工具。據官方介紹,RoseTTAFold 在短短十分鐘內就可以准確可靠地計算出蛋白質結構,預測水準與 AlphaFold2 水平相似(已開源)。這不禁令人想問:AI究竟能夠幫助生命科學解決哪些問題?為何能夠輕易破解困擾學界多年的難題?

圖片來源:nature

第一:結構問題

蛋白質是生命的基石,是細胞內部發生的大多數事情的原因。蛋白質的工作原理和作用取決於其3D形狀——"結構就是功能"是分子生物學的公理。

幾十年來,實驗室實驗一直是獲得良好蛋白質結構的主要途徑。從20世紀50年代開始,利用X射線束射向結晶蛋白和將衍射光轉化為蛋白質原子坐標的技術,確定了蛋白質的第一個完整結構。X射線晶體學在蛋白質結構中所佔份額最大。但是,在過去的十年裡,低溫EM已經成為許多結構生物學實驗室的青睞工具。

長期以來,科學家們一直想知道蛋白質的成分,一串不同的氨基酸是如何描繪出其最終形狀的許多曲折和褶皺的。研究人員說,在20世紀80年代和90年代,早期試圖利用計算機來預測蛋白質結構的嘗試表現不佳,直到2018年 CASP13 上DeepMind 的出現。

人類基因組擁有超過20000種蛋白質的指令,但目前能夠確定的3D結構大約只有三分之一,而AlphaFold 神經網絡生成了一個"完全變革性"的數據庫,該數據庫包含來自智人和 20 種模型生物的 5 萬多個結構,目前已經預測了幾乎整個人類蛋白質組的結構(由生物體表達的蛋白質的全部補充)。此外,該工具還預測了從老鼠和玉米(玉米)到瘧原蟲等各種其他生物的幾乎完整的蛋白質組(見"折疊選項")。研究人員表示到今年年底,資源結構將增長到1.3億,這有可能徹底改變生命科學。

第二:預測及效率問題

DeepMind去年震驚了生命科學界,AlphaFold的一些預測與標准的實驗模型不相上下,一些科學家都不得不承認神經網絡的影響是劃時代的。

前不久,DeepMind 開源了 AlphaFold2 背後的源代碼,並詳細描述了其開發方式(學術團隊已經開始利用這些資源做出有用的預測)。在准備AlphaFold的代碼供公開發布的過程中,DeepMind 改進了代碼,使其運行更加高效。據悉其效率已由此前在CASP的數天時間,縮短在開源版本中的幾分鐘到幾小時。

有了這種額外的效率,DeepMind團隊開始預測幾乎所有由人類基因組編碼的已知蛋白質的結構,以及20個模型生物體的結構。這些結構可在英國欣克斯頓的EMBL-EBI(歐洲分子生物學實驗室歐洲生物信息學研究所)維護的數據庫中找到。

除了覆蓋98.5%已知人類蛋白質和其他生物體的類似百分比的預測結構外,AlphaFold還產生了對其預測信心的測量。"我們希望給實驗家和生物學家一個非常清楚的信號,說明他們應該依靠哪些部分的預測,"凱瑟琳·圖尼亞蘇武納庫爾(DeepMind科學工程師、《自然》論文第一作者)說道。

對於人類蛋白質組來說,如果它對單個氨基酸位置的預測有58%,那麼足以去驗證蛋白質褶皺的形狀。如果這些預測的部分佔到了總數的36% ,那麼足以詳細說明可用於藥物設計的原子特徵,如酶的活性部位。

即使是不太準確的預測也可能提供見解。生物學家認為,人類蛋白質和其他具有核細胞的真核生物的蛋白質中,有很大一部分含有天生紊亂的區域,並且只有與其他分子協同才能具有一種明確的結構。AlphaFold首席研究員約翰說:"許多蛋白質只是溶液中的擺動,它們沒有固定的結構。

第三:數據泛濫問題

EMBL-EBI的結構生物信息學家薩米爾·維蘭卡爾說:“本週沉積的大約36.5萬種結構預測到今年年底將膨脹到1.3億種——幾乎是已知蛋白質的一半。隨著新蛋白質的識別和預測的改進,數據庫內容規模還將呈現幾何增長,但這並不都是科學家所期望獲得的資源。”

研究人員已經在使用AlphaFold和相關工具,以幫助理解使用X射線晶體學和低溫電子顯微鏡產生的實驗數據。科羅拉多博爾德大學的生物化學家馬塞洛·蘇薩利用AlphaFold從細菌用來躲避一種叫做膽鹼的抗生素的蛋白質的X射線數據中製作模型。蘇薩指出,與阿爾法折疊預測不同的實驗模型部分通常是軟件以低置信度分配的區域,這表明阿爾法折疊正在准確預測其極限。

不過,英國劍橋MRC分子生物學實驗室的結構生物學家文基·拉馬克裡什南說,生物學家們仍希望繼續將這些預測作為實驗數據的基準,以便更好地掌握它們的可靠性。"我們需要能夠信任這些數據,"奧倫戈補充道。

但紐約市哥倫比亞大學從事蛋白質結構預測的計算生物學家穆罕默德·阿爾奎希說,這麼多蛋白質結構的出現可能標志著生物學的"範式轉變"。他的領域花了太多的時間和精力來預測如此大規模的精確蛋白質結構,以至於它還沒有確定如何處理這些資源。"

奧倫戈希望數據庫能幫助她更好地瞭解蛋白質的結構約束。她已經將已知蛋白質的數據庫映射到大約5000個"結構家族"中,但是數據庫中大約一半的蛋白質被排除在外,因為沒有其他蛋白質可以確定結構。阿爾法福爾德的預測可以幫助發現新的形狀,她說。"我們將真正看到折疊空間是什麼樣子的。

03 AlphaFold翻越山丘

目前DeepMind對大部分蛋白質結構的預測與真實結構只差一個原子的寬度,達到了人類利用冷凍電鏡等復雜儀器觀察預測的水平,AlphaFold就像是一顆核彈在人工智能與生命科學兩界引爆引掀起軒然大波,西雅圖華盛頓大學的生物化學家大衛·貝克說:"當時我感覺我好像失業了,但同樣也激發了對新式實驗方式探索的好奇心。”

AlphaFold最直接的影響還是改變了蛋白質結構解析的手段,甚至是科學研究的方式與方法。利用實驗室手段可能需要數年的研究才能解析一個蛋白質結構,而利用計算結構模型最快只需 10 分鐘。

不過AlphaFold不太可能關閉實驗室,如布羅霍恩的實驗室,使用實驗方法來解決蛋白質結構。復旦大學生命科學學院教授丁澦預測:“對於已知的一些固有折疊模式,應該深入瞭解其折疊的科學本質,為算法優化打下基礎;而對於一些未知、穩定的構象,隨著收集到的結構數量增加,人工智能會算得更準;而對於柔性區域,特別是復合物中只有相互作用才會形成高級結構的序列,可能需要開發更為特殊和精細的方法學,目前還是離不開實驗室。”

"對於相互作用才會形成高級結構的序列,我開始認為這個問題在我的有生之年無法解決,"英國欣克斯頓歐洲分子生物學實驗室-歐洲生物信息學研究所的結構生物學家珍妮特·桑頓(Janet Thornton)說道。但總體來說,AlphaFold2的的開源對於生命科學與人工智能來說是一件幸事。

文章原文:‘It will change everything’: DeepMind’s AI makes gigantic leap in solving protein structures

本文來自微信公眾號“科創實驗室”(ID:scilabs),編譯:渣渣輝,36氪經授權發布。

本文經授權發布,不代表36氪立場。

如若轉載請註明出處。來源出處:36氪

更多生活相關新聞
午後大雨殺來了! 北北基12縣市大雨特報
交通部:高鐵延伸宜蘭 建議站址設在台鐵四城站
藝Fun、動滋、農遊等券將重出江湖 蘇貞昌促各部會規畫
粉海豚現蹤 研究員解密「運動變色」
皮膚癢抓到破皮潰爛 竟是骨髓纖維化作祟

今日推薦影音