科學家是如何從億萬數據裏解讀生命密碼的?
在這個由數位和程式碼構建的時代,華大生命科學研究院時空組學主任科學家張勇就像一位生命密碼轉譯官,站在IT與BT的交界,挑戰著從龐雜的數據海洋中解讀生命的秘密。借助張勇及其團隊開發的演算法工具,研究人員能夠從汪洋大海般的生命數據中,辨識出與疾病、遺傳特征、前進演化等相關的基因密碼。
2023年6月,張勇團隊負責搭建的時空雲平台上線;2024年2月20日,時空組學6大演算法工具文章集中上線。
今天,我們有幸邀請到華大生命科學研究院時空組學主任科學家張勇,一起來聊聊這個支撐生命科學發展的底層工具的那些事兒,看看他和他的團隊如何應對這些挑戰,並利用創新技術推動生命科學的發展。
能否分享一下您的研究方向,以及是什麽促使您加入華大?
張勇:我於2010年加入華大,我的本科專業是電腦-資訊保安。在華大聯合培養攻讀了生物資訊學博士。在華大的14年職業生涯主要圍繞生物資訊學和生物大數據。
加入華大主要有個人和時代兩個方面的因素,一是因為我從很早就喜歡生物,當時看到華大來學校招聘時,就覺得這是個挺有意思的機構。那時候還只是從書本上聽過「基因測序」這個詞,覺得是個比較新的方向。另一個, 2010年正值高通量測序技術飛速發展之時。
「生物資訊」這個詞外界可能覺得很神秘,能否簡單介紹一下?您從事的又是其中的哪一部份呢?
張勇:生命的解讀主要涉及到「讀」「寫」「存」三個環節,我們的研究聚焦於「讀」,而「讀」的過程又可以分為兩個,具體來說,是將生物樣本轉化成為數據,再將數據轉化為知識或套用。
這是我個人理解的「讀」的兩個階段,我主要負責的是將數據轉化為套用的環節,即從ATCG的堿基程式碼中提取有價值的資訊,用來做分析。
大部份科研人員,其實是沒有演算法背景的。必須要有懂演算法的人來開發演算法,科研人員再利用這個演算法和工具來分析數據,以便獲得分析結果,進而結合自身的生物學背景進行解讀,最後才能了解其中的奧秘。而我們就負責開發這些演算法工具。
在您的職業生涯中,最具挑戰性的計畫是什麽?
張勇:時空雲平台是迄今為止我認為最具挑戰性的計畫。這個計畫不僅要求團隊的系統化管理和良好的內外部溝通,還面臨著技術挑戰。
比如如何做出一個好的生信雲平台?如何讓一些如醫生等非專業人士能夠使用我們的平台?
這就需要去理解不同場景下的不同使用者群體的訴求,再結合對生信分析的理解去落實,這從技術上和產品上挑戰都非常大。
能否請您介紹一下時空雲平台及其如何幫助科學家分析和理解時空組學數據?
張勇:時空雲平台是一個數據分析的平台,包含了3個主要功能,首先是我們常規的計畫管理和數據管理。過去,分析人員需要在命令列式上去做計畫管理,黑色的界面,透過程式碼釋出命令,不懂程式碼的人就沒辦法操作。現在,分析人員可以透過一個網頁,只要點選就可以建立自己的計畫,還可以在計畫裏管理自己的數據。這就解決了一個最基本的問題。
第二個,我們在這個平台上構建了多個分析模組,我們稱為3+1的模組。有流程分析,去解決這種批次的、標準化分析的需求;有互動式工具,去幫助一些可能不會寫程式碼的老師進行數據的視覺化和互動式探索分析。我們還提供了個人化分析的方式,基於notebook提供給更高階的生物資訊分析人員,讓他們能在平台上進行程式碼的線上編寫和即時的互動分析。另外,我們也提供了一個分析庫,就類似手機上的APP Store,使用者可以從APP Store裏去抓取他想要的分析模組,這裏面也包含了很多我們自研的生信工具和分析案例。
最後,為了更進一步降低分析門檻,我們開放了一個智慧輔助系統,能夠幫助大家去做包括知識問答、生物學的解讀、文獻的閱讀、文件撰寫等。
在這個資訊爆炸的時代,生物大數據為科研提供了前所未有的機遇,同時也帶來了巨大的挑戰。時空雲平台在這方面有哪些貢獻?
張勇:我們之所以將其命名為時空雲平台,是因為它最初主要服務於時空組學計畫,這些計畫面臨著數據量大、數據維度高,即數據復雜的問題。傳統的處理模式難以應對這種情況,這是開發時空雲平台的初衷之一。
例如,華大時空芯片最大尺寸為13厘米×13厘米,這裏面就有169億個捕獲點,這個量是非常大的。傳統的基因組可能只有100GB左右的數據,但時空這種大芯片,一個樣本就有10TB甚至更多的數據,時空維度的豐富資訊也對數據的解讀提出了很高的要求。這對傳統的計算資源和分析演算法都是巨大挑戰。
這是一個典型的大數據帶來的計算和分析方面巨大挑戰的案例,需要從各個方面去最佳化工具。時空雲平台就旨在解決這些問題。
目前大概有多少個計畫在時空雲平台上執行?
張勇:華大研究院幾乎所有的時空及單細胞相關計畫,以及一些宏基因組計畫都在此平台上執行。目前,平台上已建立的計畫有兩三千個,既包括內部計畫也包括外部計畫。例如,去年在 Cell 釋出的猴腦的研究、在 Cell research 釋出的肝癌研究,以及2022年在 Science 釋出的蠑螈腦再生研究等都有在平台上執行。
我們的目標是2024年將時空雲平台建設成一個支持細胞組學、時空組學、基因組學等多組學的分析平台。
今年2月20日,華大生命科學研究院在GigaScience 及GigaByte 期刊上,以專題形式釋出了時空組學演算法工具系列成果。能否簡單介紹一下這個成果?
張勇:如同剛剛提到的,時空組學涉及到的數據大且復雜,相比傳統單細胞多了空間維度的資訊,所以在分析數據的時候,我們必須去開發新的演算法和工具。
這個專題裏就包含了這些新工具,可以對高維度和復雜結構的時空組學數據進行有效地處理,包括單細胞級別的表達矩陣生成,去噪、批次效應檢測和結合空間資訊的聚類等,把目前上遊遇到的大部份的問題都解決了,同時在效能上對原有工具進行了最佳化,在流程上針對高分辨率數據分析和解讀過程進行了提升,為研究人員提供更準確、全面和可靠的分析結果,幫助其深入理解生物系統結構和功能。
華大提倡「工具決定論」,您認為技術工具在生命科學開發中扮演了怎樣的角色?
張勇:我非常認同這個工具決定論。首先,生命科學作為一門自然科學,其核心就得先觀察到,然後才能進行科學的理解和突破。
其次,當你獲取數據的成本足夠低時,才能把數據變成類似汪建老師說的「人人世世種種」的一個套用,這正是技術工具在生命科學開發中不可替代的作用。
您認為生物資訊學領域目前面臨的最大挑戰是什麽?
張勇:我覺得傳統的生物資訊分析是一個偏還原論的方式,比如時空組學的研究,我需要知道細胞在這個環境裏的分布,就需要去做細胞註釋,為了做細胞註釋,就需要對前期得到的數據進行聚類……這還是基於還原論的方式在對數據進行解讀和分析,對於更為復雜的生命現象和機理的解讀存在局限性。
在大模型時代到來之後,我們有機會對生命數據進行組學大模型的構建,從海量的數據裏去訓練一個模型,基於數據驅動的方式去更加好地解讀生命科學問題。
在未來,如何沈澱更多高品質數據,並構建更好的組學大模型去解析復雜的生物學問題,是生物資訊學發展的一個重要方向和挑戰。
對於未來,您有哪些期待?
張勇:我認為BIT領域的發展空間非常廣闊,有很多機會做出產業或科學上的貢獻。
因此,我希望繼續在BIT方向上努力,進一步解決生物大數據相關的問題,創造更多更好的演算法、工具和系統,實作更高的價值。