More  

小編的世界 優質文選 生物

Nature Computational Science|量子計算生物學的實際應用


2021年3月02日 - 生物小編  
   

中大唯信

引言

生物學的許多領域,都涉及到解決複雜的計算問題,如模擬化學反應、基因組組裝、藥物發現、蛋白質折疊等。盡管計算生物學領域取得了巨大的進步,但許多現實生活中的問題,仍然具有挑戰性,因為它們需要大量的計算資源,超出了現有設備的能力。然而,這為開發一個基於完全不同的原理,即量子物理定律的計算設備,提供了機會。例如,在量子物理學中,一個物體可能同時處於多種狀態,這種現象被稱為量子疊加。在計算的語言中,量子疊加意味著比特(在這種情況下,稱為量子比特或量子位)可以同時是0和1,這種“並行”的計算過程。描述N個量子位元的量子狀態,通常需要大量的信息,按指數尺度按2N擴展。在如此大的計算空間中操縱概率振幅的藝術是開發量子算法的核心,人們希望量子算法在解決許多不同的任務時提供顯著優勢。

今天,科學界和工業界都在大力開發量子計算機,因為他們堅信量子計算機,有能力解決世界上最困難(計算)的問題。最近,量子優勢已經被證明可用於隨機電路模擬問題,這是一個在生成認證隨機數方面,具有潛在應用前景的具體問題。另一個最近的論證與玻色子采樣問題有關。討論了玻色子取樣在化學和數學中的應用。眾多領域有望用於,證明量子優勢之所在。其中之一便是生命科學,它正在與大量繁重的計算作鬥爭。由於更精確地模擬生物物體的化學和物理過程,以及用於預測和數據處理的新算法,從基因組學到藥物發現,量子計算的潛在改進有望實現。這對於量子生物系統來說是特別有趣的,因為量子現象的解釋對於足夠的描述是必要的,例如,酶催化反應和光收集等。Emani等人,對量子計算在計算分子生物學中的應用前景進行了詳細的回顧,從量子計算的基本方面出發,為現有的噪聲中尺度量子(NISQ)器件和未來的量子計算機發生器的應用提供了廣闊的前景。這篇綜述中,研究者論了量子計算對計算生物學、遺傳學和生物信息學的潛在影響,簡要回顧了量子計算,並重點討論了幾個潛在應用的具體例子。

量子計算構架

量子處理器單元(QPUs),可認為是計算設備中額外的協處理器,可增強經典處理器單元(CPUs)的現有加速器,例如,現場可編程門陣列和圖形處理單元(GPUs)。因此,可通過使用QPUs,來解決那些基於經典原理的設備無法解決的問題。

1.1 基於門的(數字)量子計算機

基於門的QPU體系結構(也稱為數字模型)在概念上看起來,與現有的經典計算設備的體系結構相似。量子信息的單位是量子位。經典位元的值可以是0或1,而量子位元可以是兩種經典態的線性疊加。基於量子門的量子計算機的思想是,在量子位下,實現量子算法作為邏輯操作序列的量子門。然而,與經典比特不同的是,一個由N個0和1組成的字符串就足以描述N個比特的狀態,而一個由N個(糾纏)量子位組成的物理系統需要2N個複數。另一個不同之處在於,量子算法的實現以測量為終點,這導致了不可逆的干擾。為了實現量子算法,人們必須能夠准備初始量子態,實現量子邏輯門的通用集合,實現系統狀態的測量。

理想情況下,基於門的量子計算機的計算能力是通過量子位的數量來衡量的。然而,在現實中,量子位元的狀態受到噪聲(由退相幹效應引起)的影響,這限制了量子位元操作的數量和質量。退相幹會導致錯誤,例如位反轉和相位反轉。由於不克隆定理的存在,開發量子糾錯碼具有挑戰性。

目前這一代基於門架構的量子計算設備,屬於NISQ的時代(見圖1),所以它們有大約50-100個量子位,沒有糾錯工具。這些設備已經解決了超出現有經典計算設備能力的計算任務。然而,它們在解決有用的計算問題上,仍然沒有表現出優勢。

最終的目標是開發一種容錯量子計算機(FTQC),可通過實現有效的糾錯技術,或者通過創建不受退相幹影響的量子位(例如,拓撲保護的量子位)。FTQCs承載沒有生命周期限制的量子位,所有操作都可以在沒有錯誤的情況下執行。這個目標就是量子計算的聖杯。

1.2 絕熱量子計算機

另一類重要的QPU設備是絕熱量子計算機。其思路是編碼一個感興趣的問題,比如想要最小化的目標函數,在量子系統的設備中,使該函數被系統的哈密頓量描述。從一些構型開始進化,這些構型在它的基態中准備,然後進化到編碼這個問題的哈密頓量。量子力學的絕熱定理保證,如果一個系統被制備成哈密頓量的基態,並且這個哈密頓量變化得足夠慢,系統將始終保持其瞬時基態。因此,通過測量系統在最終狀態下的配置,研究者可以得到問題的解,從而使優化問題得到解決。

圖1. 量子計算機的硬件架構

圖片來源於Proc. Natl. Acad. Sci. U. S. A., 2017, 114, 7555-7560.

1.3 量子退火

一個相關的計算協議被稱為量子退火。量子退火算法屬於元啟發式工具,適用於求解二元優化問題。量子退火器件,可用來解決二次無約束二進制優化(QUBO)問題,其中每個量子位代表一個變量,量子位之間的耦合器代表與量子位對相關的成本。由於計算生物學中的許多問題,都可以表述為尋找複雜高維函數的全局最小值,量子退火可以被認為是一個有前途的工具。

1.4 類和可編程量子模擬器

類量子模擬器(見圖2概念圖)的理念,是建立一個量子裝置來模擬系統的行為。這種模擬器,更適合在定性層面上研究量子物理現象。最近,模擬量子模擬器也被認為是解決化學問題的工具。可以預期,模擬量子模擬器的應用領域,將會得到擴展。一些可編程的量子模擬器,能夠在不同的機制(模擬量子模擬,基於門和絕熱量子計算)之間切換,已經被用於,諸如優化等實際任務中。

圖2. 類量子模擬器概念圖

圖片來源於Nature, 2019, 574, 215-218.

量子算法

量子計算機,可以解決各種各樣的任務。然而,定義和檢測量子加速是微妙的,因為這個概念依賴於經典算法和量子算法的比較。在許多情況下,最佳算法是未知的。例外的是,量子搜尋算法已被證明是,搜索問題中可能的最佳二次加速。

2.1 因式分解和離散對數

肖爾量子算法,是一個著名的量子算法的例子,在解決整數分解問題和離散對數問題時,量子算法提供了一個顯著的加速,超過最著名的經典算法(但可能不是最好的經典算法)。該量子算法可用於,目前已部署的公鑰密碼算法的密碼分析。同時,肖爾算法中使用的量子算法子例程,如量子傅裏葉變換,也可以作為其他量子算法的子例程。

2.2 搜索

Grover的搜索算法,在查詢的N種可能中,找到一個特定的單個輸出,這是最優的。Grover算法本身就很有趣,它也是計算生物學中更複雜數據處理算法的一個子程序,比如關於蛋白質序列比較和先進的量子機器學習算法的早期建議。

2.3 模擬

量子計算機,可以通過編程來模擬局部量子系統。這意味著,被研究的量子力學對象(例如,一個分子)的狀態和動力學,可以被編碼在量子位和一系列量子門中。與此同時,人們普遍認為(但嚴格地說,還沒有得到證實),經典計算機不能精確地有效地模擬量子系統。這就是為什麼量子計算機,有希望精確模擬與生物相關的化學系統和過程。

2.4 數據分析

數據分析,也是一個可以利用量子計算的領域。現有的方法,包括求解線性方程和微分方程的量子算法,這是數據處理算法的子程序。哈羅·哈西姆·勞埃德量子算法,可以比任何現有算法,以指數速度解決某些線性系統。這些算法被認為,在計算生物學的數值模型和更複雜算法的子程序中都很有用,例如,在機器學習中(見下文)。

2.5 優化

量子計算機,也被認為是解決複雜優化問題的工具。與此同時,量子計算機在優化問題上的加速,還沒有被證明。量子優化的工具,包括解決QUBO/Ising問題的量子退火協議和使用基於門模型的量子近似優化算法(QAOA),可以使用NISQ設備進行測試。

2.6 機器學習

增強機器學習方法的量子技術日益受到關注,這與幾個啟發式論據有關:(1)量子系統產生的概率分布,被認為是很難用經典工具取樣的;(2)量子系統在指數大的計算空間中運行;(3)大多數經典的機器學習算法都涉及大量的線性代數計算,而量子處理器可以加速這些計算。這些計算包括執行傅裏葉變換,計算向量內積,尋找矩陣特征值和特征向量,以及求解線性方程組等,然而,仍然存在一些挑戰,特別是在輸入/輸出中讀取的成本。此外,量子優化的設備,也可以用於從經典吉布斯分布采樣,這導致在經典馬爾可夫鏈上的幾個例子的加速。

量子計算生物學

在這裏,研究者描述了一組代表性的,涉及量子計算在生命科學中的使用的研究方向。早期的協議,包括將量子算法直接應用於各種生物任務,特別是用Grover算法解決蛋白質序列比較問題。在生物學中使用量子計算的想法,已經發展了近幾十年,從問題和量子算法的觀點來解決它們。

3.1 生物化學和生物物理

生物學的研究要求,在分子水平上對生物系統進行准確的表征,並對生物化學反應進行研究。這些量子化學問題可以用量子計算機潛在地解決,而傳統的計算技術無法解決這些問題。

生物化學研究生物大分子(如蛋白質、核酸、碳水化合物和脂類)和小分子(如氨基酸和核苷酸)的結構、功能和相互作用。活細胞的生物學特性,也取決於小分子和離子的反應。酶活性位點的化學,構成了生物世界中一些最複雜的多參考量子化學問題。同樣,模擬合成多相催化劑的作用機理仍然是一個挑戰。

現有的NISQ設備可以用於量子化學,例如,使用變分量子特征解算器(VQE),它由於其適度的要求而受到了極大的關注。然而,在NISQ時代解決量子化學問題,受到硬件(量子位的數量和量子門實現的質量)和算法實現(如選擇一個良好的初始配置,或ansatz, VQE)的限制。量子計算能力的提高,對於准確理解化學性質至關重要,從而能夠研究某些系統的非絕熱效應。這些作用,在DNA突變和許多酶的作用機制中,都很重要。

質子耦合電子轉移,是一類重要的生物物理過程。從高精度的多分量量子方法到複雜的嵌入方案,再到先進的基於密度泛函理論(DFT-based)的方法,以及經典方法都在這一領域做出了重要的貢獻。同時,量子化學問題如質子耦合電子轉移,超出了NISQ設備的能力。進一步的發展可能來自使用相位估計算法,然而,這需要FTQC設備。

另一個問題,是理解固氮酶的固氮作用(見圖3)。利用近乎理想的量子計算機和資源,解決酶化學問題是可能的,這使得人們可以對108個自旋軌道中54個電子的活性空間,進行完整的構型相互作用計算。Reiher等人,已經提出了一個具體的指南和相應的量子電路來進行這種計算,這需要接近FTQC時代。最新的研究是,Lee等人的方法表明,在假定1 μs的循環時間和物理門錯誤率不低於0.1%的情況下,使用大約400萬個物理量子位元,可以在4天的運行時間內模擬FeMoco。

圖3. 來自巴斯德氏梭菌的氮酶MoFe蛋白的X射線晶體結構4WES

圖片來源於Proc. Natl. Acad. Sci. U. S. A., 2017, 114, 7555-7560.

進一步的步驟,是研究各種複雜的生物物理過程,如光收集。需要在光的存在下,解決量子化學問題來揭示光化學過程。這類天然共軛系統的一些突出例子包括植物的光收集複合體中的類胡蘿卜素和葉綠素色素,以及與視覺相關的視紫紅質系統。這些問題與計算量子化學傳統上具有挑戰性的方面有關,如計算電子結構,尋找基態和激發態的勢能面,以及研究環境對光譜的影響。然而,隨著量子效應作用的增加和/或尺度的增加,人們可以預期,在量子系統複雜性指數增長的情況下,經典算法將面臨精確求解的計算困難。

3.2 蛋白質折疊

計算生物學中最著名和最困難的問題之一,是預測給定氨基酸序列的三維蛋白質結構(見圖4)。這一問題的解決方案將會有廣泛的應用,比如理解細胞的組成部分,使藥物發現更快、更先進。值得一提的是,為了使蛋白質折疊問題與現有的量子計算機兼容,它已經被重新表述為晶格問題。晶格蛋白質折疊,可以被模擬為一個組合優化問題,它等價於找到相應的伊辛哈密頓量的基態。利用現有的設備,基於量子退火的蛋白質折疊算法,只能應用於小規模問題。然而,這種方法似乎對下一代量子退火機很有希望。這個問題的互補方法,包括基於門的量子計算機上的QAOA。因此,雖然解決晶格蛋白質折疊問題的現有量子算法不能直接適用於原始的生物學問題,但人們希望獲得一些關於量子計算設備適用性的有趣見解。更接近原始的蛋白質折疊生物學問題陳述,在Rosetta能量函數和共形體采樣中,正在進行一些關於旋轉體采樣的量子算法的研究。

圖4. 現代物理模型計算的一些小蛋白質的折疊結構

圖片來源於Science, 2012, 338, 1042-1046.

3.3 轉錄因子-DNA結合

一個生物學相關的問題,可能是感興趣的量子計算,是DNA中轉錄因子結合位點的鑒定。轉錄因子是基因表達調控的重要組成部分,但其在DNA分子中識別其功能結合位點,從而激活或抑制靶基因轉錄的機制尚不完全清楚。利用量子退火器件,解決了一個由單核苷酸序列特征組成的模型,該模型在分類性能上略有優勢,對於相當小的訓練數據集的排序性能幾乎相同。這種方法是基於量子退火和機器學習相結合的方法,它允許人們根據結合親和力對候選位點進行排序。該算法是在實際結合親和實驗中,得到的少量DNA序列簡化數據集上,進行訓練的。並與模擬退火、模擬量子退火、多元線性回歸、套索和極端梯度增強等經典方法,進行了比較。此外,更強大的量子設備,將允許人們在更大的尺度上解決這個問題。

3.4 DNA從頭組裝

高效和經濟的計算解決方案,對於基因組裝問題是必要的,以受益於不斷增長的能力的測序機器。這個領域的一個特殊問題是在沒有參考的情況下重建基因組,這被稱為從頭組裝(見圖5)。由於基因融合和基因組重排是導致惡性腫瘤的常見原因,從頭組裝目前可用於轉錄組和癌症分析。重新裝配的問題可以歸結為找到一個哈密頓循環,即到圖的每一個節點只運行一次並在起始節點結束的路徑,包括裝配中的每一個讀取節點。在NP-完備集中,沒有已知的有效算法可以找到哈密頓循環。

最近的研究表明,只要這個問題,能重新表述為QUBO問題,人們就可以用量子退火來解決它。特別是,量子增強基因組裝配已被應用於一個關於噬菌體的X 174的問題(利用量子退火和經典量子退火)。這一領域的進一步發展,需要克服現有量子硬件在大小和操作質量上的局限性。基於門的量子計算機,也可以應用於這個問題。特別地,Grover搜索作為近似匹配的子程序,也可以用於基因組學的錯誤讀取和對DNA序列量子編碼的多個解決方案的分布式搜索。在使用量子計算機改進基因組分析算法方面,這兩個方向都有望取得進一步進展。

圖5. 使用量子退火器和量子啟發算法解決從頭基因組組裝問題

圖片來源於https://arxiv.org/abs/2004.05078 (Preprint, 2021)

表1. 量子計算在計算生物學中的應用,以及NISQ和FTQC設備對一系列生物學相關問題的預期影響

展望與結論

量子計算設備有潛力解決計算生物學中出現的各種問題(表1)。由於現有能力的限制,各種類型的量子設備,如數字量子計算機和量子退火器,可能被用於原型量子算法和解決計算問題在適度規模。然而,在量子化學或結構生物學中,解決現實的生物問題需要量子硬件,而量子硬件目前還不具備。

值得注意的是,量子算法與不斷改進的經典方法競爭。因此,最好的選擇可能是找到經典方法和量子方法之間的協同作用,量子算法將加速深深紮根於系統量子本質的部分問題。量子計算設備在計算生物學中的一些可能的應用,來自於量子計算與機器學習的結合。該領域的最新成果,包括使用近期量子設備從經典吉布斯分布采樣,這可能與計算生物化學和基因組學模型相關。計算生物學中的量子計算和機器學習之間的協同作用似乎很有希望,特別是從AlphaFold應用的最新進展來看。計算生物學量子算法發展的下一個有趣階段,是改進計算機輔助藥物發現的計算方法。在這個領域,潛在的量子優勢與量子化學和機器學習都相關。

新的量子算法的開發是量子信息技術的關鍵挑戰之一,它需要量子物理學和計算科學界的共同努力。在計算生物學的情況下,保持原始的、生物動機的問題陳述,是至關重要的。特定領域的計算生物學和生物信息學算法,應該在這個特定領域的適用性進行測試。

參考文獻

1. Fedorov, A. K., Gelfand, M. S. Towards practical applications in quantum computational biology. Nature Comput. Sci., 2021, 1, 114-119. DOI: 10.1038/s43588-021-00024-z.

2. Markus, R., Nathan, W., Krysta, M. S., Dave W., Matthias T. Elucidating reaction mechanisms on quantum computers. Proc. Natl. Acad. Sci. U. S. A., 2017, 114, 7555-7560. DOI: 10.1073/pnas.1619152114.

3. Argüello-Luengo, J., González-Tudela, A., Shi, T., Zoller, P., Cirac, J. I. Analogue quantum chemistry simulation. Nature, 2019, 574, 215-218. DOI: 10.1038/s41586-019-1614-4.

4. Dill, K. A., MacCallum J. L. The protein-folding problem, 50 years on. Science, 2012, 338, 1042-1046. DOI: 10.1126/science.1219021.

相關文章

Nature Catalysis | VIRTUAL CHEMIST: 不對稱催化中的計算機輔助設計

JCIM | PRIMoRDiA: 如何低成本地研究生物大分子體系中的化學反應性?

ACS Catalysis | 量子化學方法研究酶催化的立體選擇性

JACS | 量子化學計算揭示D-A環加成酶PyrI4的催化機制

JACS | 量子化學計算揭示巴西烷型倍半萜生物合成新機制

量子化學計算在反應機理確證中的應用