More  

小編的世界 優質文選 生物

Cancer Cell|數據時代新範式,下一代組學分析智能機器人


字體大小:
2020年10月02日 - 生物小編 BioArt生物藝術 
朗讀: 

在數據爆炸式增長的趨勢之下,伴隨而來的是數據科學和統計學方法在生命科學研究中的廣泛應用:從基於C語言、perl、Python、R等所編寫的“單打獨鬥”的實驗室自制數據處理腳本(script),到依賴“群體智慧”合眾開發的一系列集成化、規範化的生物醫學數據專用計算擴展項目(如Biopython和Bioconductor等),再到由政府部門資助的超大型數據儲存、交流和分析平台(如NCBI GEO、EMBL The Expression Atlas和GDC TCGA portal等),

見證了生物信息學(bioinformatics)、生物統計學(biostatistics)和計算生物學(computational biology)等新興學科的全面成熟。與此同時,對數據的公開透明、易獲得、可重複等特質的追求作為促進領域整體發展的必要條件而成為了生物醫學研究倫理的應有之義。盡管在這種變革之中仍舊發生過以新英格蘭醫學雜志主編將部分生信工作者斥為“數據寄生蟲”(data parasites)7為代表的新舊思維的對抗,但這些一廂情願、缺乏建設性的論調終究抵擋不了生物醫學數據化和計算化的大潮8

然而,作為促使當今生物醫學研究發生整體前進的核心動力之一,生物醫學大數據從來未曾真正地公平、普遍、甚至有效地惠及大部分的生物醫學工作者。盡管不排除造成這種局面的原因可能是部分研究者由於個人偏好、實驗環境等因素形成的對大數據本身及其所支持的研究範式的排斥;但絕大多數時候,數據和方法的不可接近性作為一種領域內的整體性困境,都是由基於資源和知識限制所形成的各種各樣具象或抽象的壁壘所導致的。

為了回應這一挑戰,生物信息科學家們在簡化生物醫學數據分析流程上付出了諸多努力,開發出了各類適應於本地運行的高度封裝化的端對端的生物醫學數據分析工具和基於網頁操作的數據可視化及分析平台。在這方面,獲得2020年本傑明·富蘭克林生命科學開放獲取大獎(The Benjamin Franklin Award for Open Access in the Life Sciences)的哈佛大學華人科學家劉小樂
(Xiaole Shirley Liu)教授的課題組是一個典範,其十多年來開發的被應用於轉錄調控、腫瘤免疫、高通量基因篩選等多個領域的源代碼公開的生物信息學方法(如MACS、MAGeCK)和便捷式網頁數據庫及分析平台(如TIDE、TISCH)為推動生物信息學普及化做出了重要貢獻。

在可預見的未來,伴隨著單細胞測序技術、大規模並行篩選技術和空間轉錄組測序技術等高通量多模態實驗技術的方興未艾,生物醫學領域的數據規模將繼續呈現指數級增長模式。
對於缺乏數據科學專業訓練的以實驗技術為主導的研究者個人或課題組來說,如何更便捷、更高效地通過對現有大規模數據進行挖掘和分析來設計課題、產生假說、驗證結論,是一個關系到科研生產力整體發展的重要話題。前述提到的普及化分析工具和平台往往在分析模態的多樣性和靈活性上有諸多限制,並且對實驗生物學研究者仍然提出了掌握各類常規操作模塊或分析界面的技術性要求。另外,盡管與專職生物信息學研究者進行合作在當下的生物醫學研究界已經成為一項常規操作,但合作雙方在課題思路上的交流屏障、在數據分析方向上的分歧、甚至是在作者署名中的爭議等問題仍舊在很多時候阻礙著這種工作模式的進展。

2020年9月24日,美國MD安德森癌症研究中心梁晗
課題組在

Cancer Cell

上發表了題為

Next-generation Analytics for Omics Data

的評論文章,詳細闡述了組學時代生物醫學研究者在數據分析方面面臨的挑戰和可行的解決方案,並介紹了基於自然語言和人工智能邏輯開發的下一代組學數據分析平台——DrBioRight
。這項工作由課題組成員李軍、陳虎、王雨濛和陳玫如
等共同完成。

在該研究中,作者創新性地提出以自然語言交流作為生物學數據分析的基本邏輯框架,從而將分析平台的角色從被動式的、充滿局限的“冰冷機器”轉換至主動式的、可充分延展的“科研伴侶”。作者總結了下一代組學分析範式應該具有的五大特征——自然語言理解、人工智能、透明度、移動端及社交媒體友好和眾包(crowdsourcing)。具體而言,一個智能化的分析平台要能夠實現1)准確識別不具有專門技術性知識的用戶所提出的分析請求所對應的標准化分析流程;2)幫助用戶探索和理解與任務相關的組學數據和分析結果;3)通過穩定用戶群的貢獻保持對組學數據和分析方法的及時更新;4)經由用戶對分析質量的反饋不斷修正和更新平台性能;5)與智能移動平台和社交媒體實現良好匹配,從而為分析流程增加更多的靈活性。

基於上述對生物醫學數據智能分析平台的性能期待,作者開發了一個以自然語言理解和人工智能交互為核心的下一代組學分析工具——DrBioRight。作者們為DrBioRight設計了一個極為簡潔的交互界面,其僅僅由一個輸入框和一個輸出框構成。對於用戶以自然語言形式輸入的分析請求,DrBioRight將基於其自然語言處理模塊來標記其中的語義實體,預測出與之匹配度最高的分析任務。然後,DrBioRight將調用特定的分析模塊,識別相關的數據集,並檢查是否填寫了所有必需的參數。計算任務在得到用戶確認後會被提交至雲計算節點進行處理。任務完成後, DrBioRight將調用適當的可視化模塊,以通常為交互式表格或繪圖的形式將結果返回至用戶。與此同時,DrBioRight將要求用戶為每個成功執行的作業評分,並利用收集到的用戶反饋進一步改善自身的NLP和AI模塊的性能。

DrBioRight代表了以自然語言和人工智能交互為核心的下一代組學數據分析範式的首個嘗試,其背後蘊含的是對組學數據分析流程去中心化、去黑箱化的研究倫理價值的追求,和對生物醫學研究領域與大數據時代發生深度融合從而惠及每一個普通研究者和更為廣泛的大眾的展望。