More  

小編的世界 優質文選 生物

AI預測蛋白質結構的數據庫可能改變生物學


2021年7月28日 - 生物小編 中國生物技術網 
   

中國生物技術網

中國科學院微生物研究所

近日,兩個小組公布了計算機科學家、生物學家和物理學家多年工作的成果:先進的建模程序,可以預測蛋白質和一些分子複合物的精確三維原子結構。其中一個研究小組報告說,他們已經使用最新開發的人工智能(AI)程序解決了35萬種來自人類和20種模式生物的蛋白質結構——如大腸杆菌、酵母和果蠅。未來幾個月裏,他們計劃將所有已編目的蛋白質列入模型蛋白質名單,大約有1億個分子。

“這是相當驚人的。” 美國馬裏蘭大學蛋白質折疊專家John Moult說,他每兩年舉辦一次名為“關鍵的蛋白質結構預測方法”(CASP)的比賽。Moult表示,幾十年來,結構生物學家一直夢想有一天,精確的計算機模型將增加從X射線晶體學等實驗方法中獲得的極其精確的蛋白質形狀的數量。“我從沒想過這個夢想會成真。”Moult說。

這一名為AlphaFold的模型是DeepMind研究人員的成果,DeepMind是一家隸屬於谷歌母公司Alphabet的英國AI公司。2020年秋,AlphaFold橫掃了CASP競賽,准確率中位數為92.4(滿分100),遠遠領先於緊隨其後的競爭對手。

但是DeepMind的研究人員沒有透露他們如何從理論上繪制蛋白質形狀的細節,特別是AlphaFold的底層計算機代碼。這令其他團隊感到沮喪,因為他們無法在這一進展的基礎繼續前進。

但是這種情況已開始改變。7月15日,西雅圖華盛頓大學Minkyung Baek和David Baker研究小組報告說,他們創建了一個名為RoseTTAFold的高度精確的蛋白質結構預測程序,並公開發布了該程序。相關成果在線發表於《科學》。

同一天,《自然》發表了一篇由DeepMind研究人員Demis Hassabis和John Jumper研究小組撰寫的論文,公布了AlphaFold的細節。

兩個程序都使用AI在龐大的蛋白質結構數據庫中識別折疊模式。這些程序通過考慮蛋白質中相鄰氨基酸相互作用的基本物理和生物學規則,計算出未知蛋白質最可能的結構。論文顯示,Baek和Baker使用RoseTTAFold創建了一個包含數百個G蛋白偶聯受體(一類常見的藥物靶點)的結構數據庫。

而DeepMind的研究人員在《自然》上報告說,他們創造了35萬個預測結構,是以前實驗方法得到的結果的兩倍多。研究人員表示,AlphaFold生產了近44%的人類蛋白質結構,涵蓋了人類基因組編碼的近60%的氨基酸。AlphaFold確定許多其他人類蛋白質是“無序的”,這意味著它們的形狀不是單一結構。Baker說,當這些無序的蛋白質與蛋白質伴侶結合時,最終可能會采用某種結構。加州大學舊金山分校結構生物學家 David Agard說,它們也可能會自然地采用多種構造。

DeepMind與歐洲分子生物學實驗室(EMBL)合作共建了一個新的蛋白質預測數據庫,可以在網上免費訪問。“能提供這種服務真是太棒了。” Baker說,“這真的會加快研究步伐。”

因為蛋白質的3D結構在很大程度上決定了它的功能,所以這一數據庫便於生物學家厘清數千種未知蛋白質是如何工作的。

DeepMind的合作者表示,AlphaFold已經促進了新型酶的開發,這種酶能更快地在環境中分解塑料,並為被忽視疾病的藥物開發帶來了新可能性。“這是自繪制人類基因組以來最重要的數據集之一。”EMBL歐洲生物信息學研究所主任Ewan Birney說。

Baek說,這些預測將有助於實驗學家解決結構問題。來自X射線晶體學和冷凍電鏡實驗的數據可能很難解釋,模型將會有所幫助。

相關論文信息:

https://doi.org/10.1126/science.abj8754

https://doi.org/10.1038/s41586-021-03828-1

來源:中國科學報