More  

小編的世界 優質文選 生物

為何生物學發現規模化常以失敗告終?生物學的規模化能取得什麼?


2020年9月29日 - 生物小編 讀芯術 
   

鯤鵬計劃獲獎作者 百家榜創作者 萬象大會年度獲獎創作者,優質創作者

圖源:unsplash

技術和規模的親密無間是公認的,但當生物學想要運用這條規律時卻遇到了困難。生物技術行業往往高估了“規模”在探索發現上的影響,這表現在早期的高通量化合物篩選與現在基因組學在精准醫療領域的運用上。

這裏的規模指的是生物學的實驗、進程、合成和計算的規模。巧妙的化學組合形成了數百萬個化合物、龐大的篩選設備能夠快速讀取數據、形成海量的經濟數據集,這些都形成一定規模。這些努力都合情合理,筆者不打算探討生物技術領域可能會突然出現規模未經證實的說法,類似於某家公司以“赫拉諾斯”結尾。

然而,雖不總是徒勞,但將生物學發現規模化的努力常以失敗告終,又或者要遠久於人們的預期才能擺脫技術成熟度曲線並走出幻滅低谷。生物學規模化產生(或拼湊)的海量數據集在許多方面都存在缺陷,再進一步,我們目前擁有的大量可用的數據,與我們將這些數據運用在實驗中的能力存在差距。

規模生物學承諾的數據、信息和知識……這些何時會成為洞見、智慧和影響? | 圖源:Gaping void9

生物學是複雜的,生物技術臨床應用的高昂代價也證明了這一點。雪上加霜的是,“倒摩爾定律”揭示了藥物發現成功率逐漸下降的趨勢,與之相對的是依據摩爾定律不斷上升的計算能力,兩相對比揭示了藥物開發面臨的困境。但好在過去的十年間,藥物研發的成功率出現了實質性轉變。

倒摩爾定律或許正在改變 | 圖源:Ringe

很多表面原因可以解釋這種變化,例如美國食品與藥物管理局友好的態度、罕見的基因疾病等等,但更為關鍵的原因是行業對“規模”含義的重新考量。我們現在正處於形成和詮釋規模化生物學的節點。

我們正在走出生物實驗依靠蠻力的時代,進入一個全新的、相關的、智能的、有效的規模化生物學時代。規模化的應用實際上會影響生物發現的生產力。在這個新時代,像“高通量”、“大規模”和“自動化”這樣的術語將有其長處,能不讓友商制藥公司高管立即產生懷疑。

功能基因組學平台將會以前所未有的速度識別和驗證生物目標,相關計算方法的出現迅速減少了解決方案,快速智能的技術優化提高了我們對生物的控制水平,這樣的因素還有更多。

一定程度的警惕是必要的,不過規模化永遠不會是生物發現的唯一掌舵者:它只提供推動力。倘若我們保持警惕並且目標的方向正確,就會發現相關的、智能的、有效的規模化時代將掀起生物學實驗、進程和計算的革命,從而轉變我們對於亞細胞組學、細胞、系統和身體的現有認知。

1.生物學相關的數據集揭示出細微的洞察力

應用規模化生成無關的生物學數據會扭曲生物學發現,而應用規模化生成有關的生物學數據將使你得到細微的洞見。

與生物學有關的數據提供了我們觀察身體功能的最具代表性的視角。這些數據不可複制、受干擾信息的限制,並且通常源於具有遺傳、調節、代謝、空間和時間特征的模型,這裏的特征代表了我們自己的內部機制。

圖源:unsplash

近年來,由於新式的整合利用化學、微流控和顯微技術,我們獲得生物學相關數據的能力大大增強。這些技術使基因組學領域取得了巨大的進步,現在正處於將其應用於生物技術所有領域的黃金時代。其結果是產生了規模化的生物學有關數據,包括:

· 生理相關數據,即成型於代表性模型,如多能幹細胞、原代細胞、共培養物和類器官。

· 高分辨率數據,即使用單細胞分析、空間組學和高內容成像等技術。

· 基因驗證的數據,特別是由CRISPR等基因組編輯工具賦能過的。過去,我們在很有限的遺傳背景下測試了許多假設,而現在我們能認識到遺傳多樣性的生物學含義。

· 時態數據,長期抓取並且有別於無定論的快照,其包含基因表達實驗中更頻繁的時間節點,又或者是追蹤患者體內生物標志物對抗疾病進展的10年。

此外種種,透過這些數據,我們將能在雜亂無章中梳理出關鍵點,並從規模化生物學中獲得新的發現,而不是使混亂更為複雜。

2.多參數以及多元化生物實驗正在改變生物的確認和發現數量

本文先指出了當今大量多維數據集的缺點:這些數據集匯集了基因組、表觀基因組、表型、代謝組等的各種測量數據,但它們是以高度碎片化的方式完成的。當移液管的放置方式甚至也會影響一個實驗時,批量效應、標准化的缺乏以及廣泛聚集的數據集中固有的可變性會使他們的發現僅僅是指示性的,而不是結論性的。

這並不是說現有的數據無用,事實上,它們在一定程度上是非常寶貴的。系統的、增量的數據生成對於實現聚合數據集的全部價值至關重要。這種增量數據生成既驗證了聚合數據集的見解,又填補了現有知識體系的空白。

多參數、多重實驗平台新的進展,通過在單個實驗中收集大量、描述豐富、標准化的數據集,正在解決增量數據生成的需求。

· 多參數實驗包括一次收集多個可能正交的讀數。這樣的變量經常同時被測量,包括細胞形態、細胞運動性、基因表達、時空變異性等等。

· 多元化實驗包括同時處理多種生物事件或單一類型的成分(例如同時對多個DNA片段進行測序、同時識別多個細胞表面標記物、同時檢測多種不同的代謝物)特別是“庫對庫”的篩選方法,即針對修飾實體(抗體、小分子、T細胞受體等)篩選目標庫(通常是蛋白質)。

這些“多-實驗”法非常適合提高生成數據的標准程度、生產量和有效性,而這些數據集非常適合驗證猜想和完善現有知識的空白,因為它們可最大化提高效率和最小化易混淆的可變性。多-實驗甚至在它所增加的價值上能更進一步,當多個變量或多元測量被同時收集時,數據集返回的未來值會超出當前研究。

圖源:unsplash

值得注意的是,多參數和多元規模化對疾病的理解是有價值的,因為大多數複雜的疾病是許多基因、後生和環境變量的產物。多因素實驗可提供規模,並確定和治療由多因素導致的疾病。多參數和多元平台正在重塑規模的價值。以下是幾個革新了生成多參數和多元數據的集團:

· 多參數:Recursion Pharma公司通過利用高內容成像和機器學習驅動的信息管道,支持同時收集數十種細胞表型。

· 多參數:Freenome公司將無細胞DNA、甲基化和蛋白質的檢測與機器學習技術相結合,以了解早期癌症檢測的附加特征。

· 多元化:Octant Bio公司正在統一評估單個分子對數千個GPCR靶點的影響,努力尋找可能能夠治療多因素疾病(如神經退行性變和肥胖)的最佳分子。

· 多元化:Tango Therapeutics公司正在進行高功率的混合CRISPR篩查,以評估基因型擾動對數千個基因同時的表現效應的影響。

3. “智能自動化”正實現生物學的可複制化和優化

如今,人們把目光投向了各種吹捧自動化平台的機器人實驗室公司,但事實上,自動化對生物技術領域來說早已不新鮮。傳統意義上來講,自動化一般應用於相對簡單的實驗——比如DNA測序和合成,或者永生細胞系中的小分子化合物篩選。當前,實驗正變得越來越智能化和自動化,這可以歸因於兩個領域的進步:

· 自動化工作流程中傳感器、讀數和縱向數據收集的整合。

· 基於數據收集的自動化工作流算法優化。

首先,這種進展能夠以一種標准化的方式大規模地收集相關的生物學數據。僅在美國,每年就有超過280億美元用於不可再生的生物醫學研究,所以這種標准化至關重要。其次,通過不斷優化實驗參數,生物學家們可以找到生成混淆數據最少的最優生物學實驗方案。

然而,有趣的是,智能自動化和迭代使生物工具、生物技術和產品的快速迭代成為現實。智能實驗量表可以確定需要修改的關鍵因素,然後再優化變量本身。

以基因編輯的同種異體細胞療法的工程為例,雖然最終的目標是能夠設計出一個能夠摧毀癌細胞的細胞,但第一步是確定進行基因修改的“工具”。這些工具可以包括CRISPR/Cas9、TALENs、ZFNs等。

為了優化被選定的工具,智能自動化的實驗將識別最需要優化的變量(例如理想的轉染條件、基因編輯組件、編輯增強試劑等),然後再優化變量本身。由此產生的優化技術工具包可用於執行複雜的編輯,如位點特異性基因敲除、多重基因編輯等,從而實現優化設計的治療。

智能自動化可以優化基因組編輯工具,以實現最佳的療效。| 圖源:Satpathy等人

這種優化方法與許多生物學應用相關,如病毒載體設計、核酸酶工程設計、發酵生物反應器工藝、納米顆粒輸送制劑等。因此,智能自動化所致的更為頻繁的開發周期,將有助於改善生物工具、產品、技術和治療方法。

4. “全棧”生物技術正在模式化數據的生成

“全棧”的概念來自於軟件的世界,意思是通過軟件連接後端(數據庫和架構)和前端(客戶接口)。這個概念在生命科學中相對新穎,在生命科學中全棧方法有兩個關鍵組成部分:

· 實驗工作流程和反應物的縱向合並。零碎的工作流程會導致不一致的結果,甚至像酶這樣的生物成分也會帶來扭曲。全棧式生物技術平台已經意識到了設計→性能→分析的綜合實驗的價值。通過將這些步驟模塊化,全棧生物技術能夠集成特定的模塊,實現大規模可重複的實驗結果。

· 反饋回路支持故障排除、持續改進和“數據飛輪”。全棧硬件和穿過它的集成軟件“線程”將能夠沿著整個實驗路徑收集數據。通過這樣的數據收集,人們可以排除故障、改進質量、數量和信號。此外,“數據飛輪”存在變成現實的可能。在這樣的飛輪中,平台生成的每一個額外的數據點都使得後續的數據點更容易生成。

合成生物學從全棧方法中受益匪淺。在這裏,生物技術集團集成了試劑工程、實驗設計和執行以及輸出應用等方面,而Synthego、Asimov和Gingo等公司都利用全棧平台進行大規模實驗。

應用於合成生物學的全棧生物技術方法提高數量/可靠性的例子。| 圖源: Jessop-Fabre等

5.為建立生物學的預測模型,無偏差數據和先進的計算技術正在融合

隨著時間的推移,人們運用假設→檢驗假設→分析的科學方法發現了很多東西。這裏的關鍵詞是探索發現,因此我們經常結合巧妙和好運來解釋生物學的洞察力。但是現在,一個根本性的轉變正在發生,生物學家、工程師和計算機科學家正從生物規模化中獲得洞見。

在這個範例中,實驗數據的預期用戶不是科學家,而是算法。計算技術被隨意地應用到生物學中。但盡管如此,許多聰明的工具已在混亂中崛起。

例如,機器學習已被有效地應用於各種難題,如高含量細胞圖像的分類、多組分數據集的預測診斷以及重新設計的藥物虛擬複合屏。這些計算技術適合從複雜多維的數據集中獲取信息,它們的計算和獲取信息的能力非常優秀。

沒有計算上的進步,就無法理解複雜的規模化生物學。| 圖源:Goff

在規模化生物學的新時代,更有效和相關的實驗使我們能夠生成完全適合基於機器學習的數據集。這樣的數據集在多個層次上被標記了豐富的描述符,並包括無偏差的正負實驗結果。這些數據集與背景化的元數據同行,這些背景化的元數據為數據本身(從創建到處理再到管理)的過程提供了有價值的見解。

提供了對數據本身(從創建到處理再到管理)的寶貴信息,這些數據集是海量的,並且以前所未有的周期生成,也就進一步增強了算法的預測能力。

人類不善於理解因果關系,但隨著規模上的精進和計算的正確應用,我們也就能夠使用正確的數據集,並將在理解複雜數據集的關系上取得巨大進步。

生物學的規模化能取得什麼?

圖源:unsplash

從根本上講,相關、智能和有效規模將為生物研究人員和生物技術公司提供兩個切實的優勢:

· 產生令人鼓舞的新穎的數據包。生物技術的經濟價值完全取決於其臨床財富,而規模化永遠不會成為替代品。即使在基因組學的早期,開創規模化的公司(如Celera)也被Plexikon和Exelixis等資產驅動型公司淘汰。

然而,規模化可以社會化如下概念:更快的目標驗證,更多的描述性數據包,來自遺傳學和其他相對新穎領域的數據的使用。總的來說,規模化會影響生物學研究者或藥物開發人員對於一個特定假設的肯定。

· 實驗、技術和平台的優化。規模化會引領我們開發生物技術的能力進入一個新時代,智能迭代將大大有助於公司實現從校准功能讀數到設計新型病毒載體的成果。

從商業意義上講,生物技術集團有效利用規模化生產,能夠在生物技術價值鏈(從早期研究到臨床財富)中獲取上遊和下遊價值。由於數據是從大規模有效的實驗中積累起來的,一條具有競爭力的產業鏈將會圍繞著知識產權展開,使類似的集團產生更多的經濟價值。

我們已經可以開始看到相關、智能和有效規模化真正影響了生物學科探索發現的成功率,但其長期影響仍有待了解。我們必須明確開創規模化的新時代所需的工具、技術和平台,也必須明確最容易受到破壞的生物學領域和生物技術工具。

圖源:Bioinformatics

很少有生物學發現產生於一瞬間,但是當我們建立起對這些證據的信心,在我們能夠理解、獲得洞見,並采取行動來改善人類健康的道路上,我們就可以期待雪球效應。

留言點贊關注

我們一起分享AI學習與發展的幹貨

如轉載,請後台留言,遵守轉載規範