More  

小編的世界 優質文選 生物

人工智能在生物學上的重大突破,比肩DNA的發現,或徹底改變醫學


2020年12月18日 - 生物小編  
   

老胡說科學

百家榜創作者,優質創作者

DeepMind可能剛剛攻克了生物學領域最大的挑戰之一。一個可以與DNA雙螺旋結構的發現相媲美的發現。它可能永遠改變生物醫學、藥物發現和疫苗開發。

乍一看,遊戲的實際成就遠沒有那麼吸引人。DeepMind強大的人工智能算法之一AlphaFold利用其深度學習能力預測蛋白質的三維形狀,精確到一個原子的寬度。這是一個讓生物學家困惑了50年的難題,以至於基於計算機的蛋白質結構預測已經變成了眾包遊戲,全球競賽。

我們正處在拐點上。AlphaFold在一項名為“結構預測關鍵評估(CASP)”的長期挑戰中,以驚人的表現擊敗了約100個其他團隊。CASP聯合創始人、馬裏蘭大學的約翰·莫爾特博士對《自然》雜志說:“在某種意義上,這個問題已經解決了。”

哥倫比亞大學的穆罕默德博士也參加了CASP項目,他稱贊人工智能具有變革意義。他對《自然》雜志說:“這是一級突破,無疑是我一生中最重要的科學成果之一。”

這也是DeepMind的一次勝利,該公司因一系列算法在圍棋等遊戲中的表現超過人類而聲名大揚。然而,蛋白質結構預測的勝利標志著它在現實世界的閃亮登場。

DeepMind並不是蛋白質折疊領域唯一的競爭者。AlphaFold依靠生物學數據和洞察力,通過策略性地改變一個複雜蛋白質組裝的基因並觀察結果,該團隊能夠建立一種算法,以極高的精度重建蛋白質。

我們一起走在範式轉變的快車道上。“這將改變醫學,”馬克斯·普朗克發育生物學研究所的安德烈·盧柏斯博士說。“它將改變研究。它將改變生物工程。它將改變一切。”

這有什麼大不了的?

生物學的中心原則是“結構解釋功能”。例如,DNA雙螺旋結構的發現,使人們對遺傳信息是如何複制和存儲的有了更深刻的認識。如果沒有結構,我們就不會有基因編輯、DNA計算機或存儲設備。

但要破譯它們要難得多。它們最初的生命是由線性成分組成的緞帶,稱為氨基酸,就像繩子上的珠子。基於極其複雜的生物物理學(其中許多仍是謎團)折疊成精致的形狀,比如一片片的扭曲和旋轉的線,或者相互纏繞的螺旋線。這些結構中的許多進一步耦合成為更大的結構。只有這樣,它們才能正常運作以維持生命。

如果我們知道一個蛋白質的結構,我們就可以對它的功能做出有根據的猜測。通過繪制數以千計的蛋白質結構,我們可以開始破譯生命的生物學原理,並找到操縱它的方法。

其中一項重大突破是繪制出病毒表面“刺突”蛋白的結構,而病毒正是依靠這種蛋白入侵我們的細胞。把蛋白質的三維結構想象成一把鎖。如果我們能繪制出鎖的形狀,那麼就有可能設計出“鑰匙”(藥物或疫苗)來破壞它。今年3月,正當新冠肺炎病例在全球範圍內激增時,DeepMind的AlphaFold瞄准了這些激增的蛋白質結構,這並不令人驚訝。

發現蛋白質結構的經典“黃金標准”依賴於極其繁瑣和困難的實驗室技術,被稱為x射線晶體學。科學家們基本上把蛋白質“冷凍”成精致的晶體結構,並用x射線、高科技顯微鏡和數學計算出它們的形狀。但並不是所有的蛋白質都能被“快速冷凍”以供分析,這就為解碼生物學留下了一條大峽谷大小的鴻溝。其他一些方法,像“核磁共振光譜學”也同樣昂貴和繁瑣。

構建3D蛋白質的指令並嵌入到它的一維氨基酸序列中,這一發現贏得了諾貝爾獎。如果有一件事是人工智能擅長的,那就是在複雜序列中找到超出我們人類能力的模式。

三維國際象棋

CASP挑戰賽是對蛋白質結構的預測,這些預測已經通過x射線晶體學得到,但還無法向公眾開放。DeepMind並不是這一挑戰的新來者,在2018年,它的表現震驚了許多長期在該領域工作的學術科學家。

AlphaFold的策略與今年CASP的大多數參賽作品類似,因為它依賴於深度學習。氨基酸序列是蛋白質的組成部分,它包含了蛋白質最終三維形狀的數據,這對於深度學習方法來說似乎是完美的。

DeepMind則更進一步,將物理、幾何和進化歷史的數據添加到模型中。這個神經網絡經過了大約17萬個蛋白質結構的蛋白質數據庫的訓練,然後可以將蛋白質的結構解釋為“3D圖”,並分析任何隱藏的關系或模式。通過迭代這一過程,AlphaFold能夠在幾天內確定高度精確的結構。

這些並不是空洞的話語。在CASP,這種算法讓競爭對手相形見絀。近三分之二的預測與實驗數據在幾個原子的分辨率上相當。在滿分100分的比賽中,它取得了令人難以置信的90分,比其他競爭者高出了25分。

更多

更實際地說,AlphaFold的成功意味著我們可以獲得以前“無成藥性”的蛋白質,其中許多與癌症和其他嚴重疾病有關。

幾乎我們所有的藥物都設計成與蛋白質結合,就像鎖的鑰匙一樣。第一步是尋找蛋白質的結構易損點。擁有一種基於人工智能的方法來解碼蛋白質結構,可以快速篩選成千上萬的新藥物靶點。

這裏還有改進的空間。與一些幾秒鐘就能得到結果的算法相比,AlphaFold的速度相對較慢。但更重要的是,它在解碼蛋白質複合體上遇到了困難,蛋白質複合體是由多個獨立的3D構建模塊組成的巨型結構,它們形成了一個整體的功能實體。這在生物學中並不罕見。例如,我們腦細胞中的大多數化學受體都依賴於這些結構。它們也像巨大的魔方一樣可以變形,因為它們的3D結構可以根據身體的狀態而改變。例如,當它檢測到一種化學物質附著在其表面時,一個封閉隧道形狀的巨型蛋白質就會打開,這是我們大腦工作的核心過程。

本周,一個團隊采用了一種單獨的方法來分析活細胞中的蛋白質複合物。他們解決這個棘手問題的方法可以追溯到基因,基因是指導氨基酸鏈構建的藍圖,其中包含3D蛋白質折疊的信息。

研究小組發現,他們可以快速篩選數千種突變,以找到在活細胞中制造蛋白質的基因。通過觀察產生的蛋白質複合物的結構,他們可以使用基於人工智能的方法來繪制一個突變如何影響另一個,反過來,只需觀察它們的潛在遺傳指令,就可以解釋這些巨型結構形成背後的“規則”。

與AlphaFold類似,這項被稱為“綜合建模”的技術尚未准備好取代蛋白質制圖的黃金標准。但我們比以往任何時候都更接近目標。從單一蛋白質到蛋白質複合物,我們現在有更快、更簡單、更便宜的方法來精確地可視化一個生物隱形人。隨著人工智能和生物學的協同工作,蛋白質折疊可能成為我們這一代醫學的第一個重大突破。

AlphaFold是我們迄今為止最重要的進步之一。這讓我們進一步相信,人工智能將成為人類在拓展科學知識前沿方面最有用的工具之一,我們期待著未來多年的艱苦工作和發現!