科学家是如何从亿万数据里解读生命密码的?
在这个由数字和代码构建的时代,华大生命科学研究院时空组学主任科学家张勇就像一位生命密码翻译官,站在IT与BT的交界,挑战着从庞杂的数据海洋中解读生命的秘密。借助张勇及其团队开发的算法工具,研究人员能够从汪洋大海般的生命数据中,识别出与疾病、遗传特征、进化等相关的基因密码。
2023年6月,张勇团队负责搭建的时空云平台上线;2024年2月20日,时空组学6大算法工具文章集中上线。
今天,我们有幸邀请到华大生命科学研究院时空组学主任科学家张勇,一起来聊聊这个支撑生命科学发展的底层工具的那些事儿,看看他和他的团队如何应对这些挑战,并利用创新技术推动生命科学的发展。
能否分享一下您的研究方向,以及是什么促使您加入华大?
张勇:我于2010年加入华大,我的本科专业是计算机-信息安全。在华大联合培养攻读了生物信息学博士。在华大的14年职业生涯主要围绕生物信息学和生物大数据。
加入华大主要有个人和时代两个方面的因素,一是因为我从很早就喜欢生物,当时看到华大来学校招聘时,就觉得这是个挺有意思的机构。那时候还只是从书本上听过「基因测序」这个词,觉得是个比较新的方向。另一个, 2010年正值高通量测序技术飞速发展之时。
「生物信息」这个词外界可能觉得很神秘,能否简单介绍一下?您从事的又是其中的哪一部分呢?
张勇:生命的解读主要涉及到「读」「写」「存」三个环节,我们的研究聚焦于「读」,而「读」的过程又可以分为两个,具体来说,是将生物样本转化成为数据,再将数据转化为知识或应用。
这是我个人理解的「读」的两个阶段,我主要负责的是将数据转化为应用的环节,即从ATCG的碱基代码中提取有价值的信息,用来做分析。
大部分科研人员,其实是没有算法背景的。必须要有懂算法的人来开发算法,科研人员再利用这个算法和工具来分析数据,以便获得分析结果,进而结合自身的生物学背景进行解读,最后才能了解其中的奥秘。而我们就负责开发这些算法工具。
在您的职业生涯中,最具挑战性的项目是什么?
张勇:时空云平台是迄今为止我认为最具挑战性的项目。这个项目不仅要求团队的系统化管理和良好的内外部沟通,还面临着技术挑战。
比如如何做出一个好的生信云平台?如何让一些如医生等非专业人士能够使用我们的平台?
这就需要去理解不同场景下的不同用户群体的诉求,再结合对生信分析的理解去落实,这从技术上和产品上挑战都非常大。
能否请您介绍一下时空云平台及其如何帮助科学家分析和理解时空组学数据?
张勇:时空云平台是一个数据分析的平台,包含了3个主要功能,首先是我们常规的项目管理和数据管理。过去,分析人员需要在命令行式上去做项目管理,黑色的界面,通过代码发布命令,不懂代码的人就没办法操作。现在,分析人员可以通过一个网页,只要点击就可以创建自己的项目,还可以在项目里管理自己的数据。这就解决了一个最基本的问题。
第二个,我们在这个平台上构建了多个分析模块,我们称为3+1的模块。有流程分析,去解决这种批量的、标准化分析的需求;有交互式工具,去帮助一些可能不会写代码的老师进行数据的可视化和交互式探索分析。我们还提供了个性化分析的方式,基于notebook提供给更高阶的生物信息分析人员,让他们能在平台上进行代码的在线编写和实时的交互分析。另外,我们也提供了一个分析库,就类似手机上的APP Store,用户可以从APP Store里去抓取他想要的分析模块,这里面也包含了很多我们自研的生信工具和分析案例。
最后,为了更进一步降低分析门槛,我们开放了一个智能辅助系统,能够帮助大家去做包括知识问答、生物学的解读、文献的阅读、文档撰写等。
在这个信息爆炸的时代,生物大数据为科研提供了前所未有的机遇,同时也带来了巨大的挑战。时空云平台在这方面有哪些贡献?
张勇:我们之所以将其命名为时空云平台,是因为它最初主要服务于时空组学项目,这些项目面临着数据量大、数据维度高,即数据复杂的问题。传统的处理模式难以应对这种情况,这是开发时空云平台的初衷之一。
例如,华大时空芯片最大尺寸为13厘米×13厘米,这里面就有169亿个捕获点,这个量是非常大的。传统的基因组可能只有100GB左右的数据,但时空这种大芯片,一个样本就有10TB甚至更多的数据,时空维度的丰富信息也对数据的解读提出了很高的要求。这对传统的计算资源和分析算法都是巨大挑战。
这是一个典型的大数据带来的计算和分析方面巨大挑战的案例,需要从各个方面去优化工具。时空云平台就旨在解决这些问题。
目前大概有多少个项目在时空云平台上运行?
张勇:华大研究院几乎所有的时空及单细胞相关项目,以及一些宏基因组项目都在此平台上运行。目前,平台上已创建的项目有两三千个,既包括内部项目也包括外部项目。例如,去年在 Cell 发布的猴脑的研究、在 Cell research 发布的肝癌研究,以及2022年在 Science 发布的蝾螈脑再生研究等都有在平台上运行。
我们的目标是2024年将时空云平台建设成一个支持细胞组学、时空组学、基因组学等多组学的分析平台。
今年2月20日,华大生命科学研究院在GigaScience 及GigaByte 期刊上,以专题形式发布了时空组学算法工具系列成果。能否简单介绍一下这个成果?
张勇:如同刚刚提到的,时空组学涉及到的数据大且复杂,相比传统单细胞多了空间维度的信息,所以在分析数据的时候,我们必须去开发新的算法和工具。
这个专题里就包含了这些新工具,可以对高维度和复杂结构的时空组学数据进行有效地处理,包括单细胞级别的表达矩阵生成,去噪、批次效应检测和结合空间信息的聚类等,把目前上游遇到的大部分的问题都解决了,同时在性能上对原有工具进行了优化,在流程上针对高分辨率数据分析和解读过程进行了提升,为研究人员提供更准确、全面和可靠的分析结果,帮助其深入理解生物系统结构和功能。
华大提倡「工具决定论」,您认为技术工具在生命科学发展中扮演了怎样的角色?
张勇:我非常认同这个工具决定论。首先,生命科学作为一门自然科学,其核心就得先观察到,然后才能进行科学的理解和突破。
其次,当你获取数据的成本足够低时,才能把数据变成类似汪建老师说的「人人世世种种」的一个应用,这正是技术工具在生命科学发展中不可替代的作用。
您认为生物信息学领域目前面临的最大挑战是什么?
张勇:我觉得传统的生物信息分析是一个偏还原论的方式,比如时空组学的研究,我需要知道细胞在这个环境里的分布,就需要去做细胞注释,为了做细胞注释,就需要对前期得到的数据进行聚类……这还是基于还原论的方式在对数据进行解读和分析,对于更为复杂的生命现象和机理的解读存在局限性。
在大模型时代到来之后,我们有机会对生命数据进行组学大模型的构建,从海量的数据里去训练一个模型,基于数据驱动的方式去更加好地解读生命科学问题。
在未来,如何沉淀更多高质量数据,并构建更好的组学大模型去解析复杂的生物学问题,是生物信息学发展的一个重要方向和挑战。
对于未来,您有哪些期待?
张勇:我认为BIT领域的发展空间非常广阔,有很多机会做出产业或科学上的贡献。
因此,我希望继续在BIT方向上努力,进一步解决生物大数据相关的问题,创造更多更好的算法、工具和系统,实现更高的价值。