当前位置: 华文世界 > 科技

AI在药物研发变得如此有用,因为拥有了更多测量技术和数据

2024-09-02科技

AI在药物研发变得如此有用,因为拥有了更多测量技术和数据;首先注重数据生成,再考虑复杂算法

导读:

  • Kim Branson指出,如今,AI在药物研发行业变得如此有用,是因为我们拥有了更多的测量技术,比如基因组测序、RNA测序和单细胞分析等。这些数据的维度非常高,如果没有机器学习,即便是专家也很难从大量的表达变化中提取有用的信息。

  • 初创公司首先要关注的是数据,尤其是独特的数据。一个关键的教训是首先注重数据的生成,再考虑复杂算法的问题。独特、干净、能够生成更多数据的数据具有差异化优势。

  • ML正在与真正的生物机制建模相碰撞,关键在于「有结果」的数据。为此,应当建立样本库,让数据收集变得成本更低、质量更好。

  • GSK的AI革新吸引Branson从初创领域走向大型企业生态

    VJ: 今天我们请到了GSK的高级副总裁兼全球人工智能和机器学习负责人Kim Branson。Kim,非常感谢你能来到这里。欢迎来到Raising Health节目。

    KB: 谢谢你,VJ,很高兴能来到这里。

    VJ: 那么,我想我们可以从一个大家都感兴趣的话题开始,让大家了解一下你,以及你最初是怎么对这个领域产生兴趣的。我猜想你小时候可能喜欢电脑,你一定也喜欢医学和生物学。那么,这一切是怎么开始的呢?

    KB: 其实我在上大学之前从来没有接触过生物学,甚至从未考虑过这个领域。直到进入大学后,我才发现了分子生物学和细菌致病机制——免疫系统和细菌之间存在相互作用。我小时候喜欢玩电脑,对电脑很感兴趣,但我更多是个数学和物理方面的孩子。当我发现这个全新的世界时,我就被深深吸引住了——我发现生物学不仅仅是一些模糊的概念,它是有结构的,比如晶体结构等等。当你把这些东西组合在一起时,就会被吸引并想要了解事物是如何真正运作的。所以,我一直被结构生物学的魅力所吸引。在长时间的培养和实验过程中,我意识到,我可以去做计算和小分子药物设计。

    VJ: 也就是说,可以去做计算工作。

    KB: 是的,我做计算工作和小分子药物设计。在我读博士期间和获得博士学位时,很多人问计算辅助药物设计是否有效。答案是肯定的,而且它确实开始发挥越来越大的作用。

    VJ: 但你说的这些大概是20年前的事情了。

    KB: 是的,所以我们谈论的是很久以前的事了,这确实让我感觉自己有点老了。大概是在1999年左右,我当时和Joseph Gees、Peter Coleman以及Brian Smith一起工作,他们是第一个神经界面驱动器背后的关键人物,而这个驱动器实际上是通过计算设计的。他们使用一个叫Goodford Scrid的程序来绘制蛋白质表面,并找出在何处放置功能基团。这个设计的基础是一种原始的糖分子,但实际上是通过计算方法完成设计。他们相信计算设计的有效性,因为他们必须构建一些东西。最终,这些成果被市场接受,成为Relenza (ZP注:Relenza是一种用于预防和治疗流感病毒感染的药物,其活性成分是扎那米韦(zanamivir))。 讽刺的是,这个药物正是由我现在所在的GSK公司推出的。

    VJ: 真是一个完整的循环。之后,你去了一些初创公司,也进入了制药行业。我很好奇你对这两者的看法,以及你如何看待这个生态系统。

    KB: 是的,我在Vertex工作了一段时间。讽刺的是,在生物学领域里,你能建立的最好模型的准确率大约在0.6到0.7,如果达到0.9,这已经是个很好的数值了,但仍可能有问题。这些是在PowerSet和Becca等概念出现之前的事情。后来,我的一些朋友在开发一个搜索引擎,所以我决定加入他们,因为我想处理大型数据集。在处理非常大的数据集时,我学到了很多关于机器学习的知识,这非常令人兴奋。

    在初创公司里,竞争者不多,你可以自由发挥,但也会受限于规模、资金等各种因素。而在大公司里,虽然资金更多,但生态系统也更大,有很多人在做各种各样的事情,关键是如何引导这些资源。因此,两者各有优劣。

    对我来说,我可以把从一个领域学到的东西带到另一个领域,然后再回到原来的领域。我一共任职了了三个初创公司,我真的很喜欢那种节奏感和紧迫感。如果你能把这种感觉带到大公司里,即便在大公司里很容易随波逐流,但如果你今天能完成任务,即使别人拖延了几天,最终也不会导致一个月的延误。初创公司有一种「立即行动」的能量,并且你能招募到那一类人。

    VJ: 那么是什么吸引你来到GSK的呢?是什么让你决定加入这家公司?

    KB: GSK非常有趣。当时我在Genentech工作,我有很多朋友在GSK,他们想做AI相关的事情,就问我应该如何组织,以及应该把人放在哪里。他们坚决主张一个特定的地点,但我当时认为他们在那里找不到合适的人选,并建议他们以另一种方式组织。起初,我对加入GSK是有抵触情绪的,因为外界对GSK的看法,以及在过去20年里,我在会议上总是看到一些人在抱怨同样的事情,这让我觉得不想在那里工作。

    VJ: 但这也是大公司的常见问题,对吗?

    KB: 是的,最终他们邀请我去面试。我去面试时见到了Howe和其他人,我意识到实际上情况非常不同。GSK当时正处于一个彻底自我重塑的阶段。大公司很少会彻底自我重塑,但他们真的在做,而且非常认真。因此,我认识到GSK在努力进行真正的变革。

    我通过Daphne等人认识了Howe,知道他不仅懂得如何写Python,还对计算机科学有深入的了解。他拥有ACS认证,背景也是工程师,确实能写代码。我意识到这个人实际上与机器学习领域的专家合作过,他知道实现这些目标所需的条件。而且,他们所投入的正是我当时认为非常重要的领域,比如大型基因数据库的上线和功能基因组学。Howe在CRISPR和基因扰动方面的思考远远领先,他说我们可以看到数据爆炸的趋势,因此需要机器学习来理清这些数据。

    因此,他们不仅仅是试探性地做一些合同项目,而是计划建立一个完整的部门,并将其作为战略的核心。我认为这确实是一个机会。当时我也考虑过做另一家公司或其他事情,所以最坏的情况就是再找另一份工作,这不算很难。更有趣的是,当时有人在打赌我在那儿能待多久,有人说两周,有人说几个月,甚至两年。结果我打破了这些预期,到这个星期一我在GSK已经五年了。

    VJ: 看来你成功「打脸」了那些赌你会离开的人。

    KB: 是的,如果我早知道的话,可能会更有信心留在GSK。我觉得自己在较小的公司里学到了如何构建和吸引人才,但在大公司中面临的下一个挑战是如何在这样一个大组织内创建新的事物,以及如何同时带动所有人一起前进。这是一个全新的挑战。

    VJ: 那么你是怎么做到的?这是个很好的话题。

    KB: 是的,我认为Armdale法则不仅仅适用于CPU,对于公司来说也是如此。 计算与沟通的比例确实非常重要。 我意识到,你需要花费很多时间向大型组织解释那些对你来说直观显而易见的东西,因为你面对的是一群非常忙碌的人,他们有自己的工作要做。

    VJ: 而且,他们的背景也各不相同。

    KB: 药物研发涉及到来自不同学科的人才,再加上生产环节,我认为这是一个非常复杂的工作。他们的背景和所接受的训练非常不同,而且年龄也不同。技术变化非常快,因此不同的人会经历不同的发展阶段。有些人可能会质疑新技术是否有效,或者将其与已有的技术进行比较。这就像经典的创新者困境一样:虽然现在的技术可能还不够成熟,但我必须解释清楚技术变化的速度。你还会遇到真正的信徒,他们对这些新事物充满热情。因此,关键在于说服人们,进行大量的沟通。

    然而,我发现到了一定程度,你可以说很多话,但有时候更需要安静下来专注于实际建设。于是,我们基本上决定不再讨论这些问题,而是专注于实际工作。我们在组织内部创建了一个小型的保护性环境,建立了大量的产能。

    现在我们处于技术的安装阶段,也就是将这些技术整合到实际流程中的阶段。我们已经完成了小规模的试点项目,现在需要将它们实际融入到工作流程中。在这一过程中,你需要不断地沟通、沟通、再沟通。因为组织往往分布在不同的地理区域和时区,所以信息传递的时间可能会让人感到意外。但最终,大家都会支持这一变革。当你成功推动了这一变革,它就会变得不可阻挡。毕竟,这涉及到大量的资本和数据。

    VJ: 这就是我的看法。我觉得在大型制药公司中,你会涉及到这些问题。

    KB: 无论哪个领域,你都能找到专家。即使他们自己不知道答案,他们也能找到知道答案的专家。

    从设计到临床:AI如何应用于药物研发?

    VJ: 我认为现在的问题是,我们看到AI已经在我们周围出现,但它将如何影响药物设计?我觉得你们正在做的事情非常有趣,因为你们正在实际应用这些技术。你能否提供一些具体的例子?

    KB: 是的,很多人可能认为,AI一旦成功,就能实现「输入疾病数据——自动给出靶点——生成相应的分子」的流程,我们甚至不需要进行测试,或者只需在虚拟人类中进行测试。 我每次听到这种说法时,总是忍不住翻白眼。

    VJ: 也许这种情况会发生,但可能还要等50年。

    KB: 我们聚焦在企业上,但首先要确定的是药物的靶向。 你可以设计出世界上最好的药物,具有最佳的药代动力学和安全性,但如果靶向错误,它就不会产生临床效果。所以首要任务是选择正确的靶向。

    我们拥有大量的基因数据库,包括人的基因序列和医疗记录等信息,我们会比较有疾病和没有疾病的人,看看他们之间有什么不同。 虽然他们之间有很多差异,但哪些差异真正重要,哪些是驱动疾病的因素?

    首先,我们可能会比较已诊断和未诊断的患者,这是其中一种方法。或者我们可以再次使用机器学习——例如,我们将机器学习应用于临床影像。一些人可能会有不同程度的肝脏肿大或瘢痕,或肝脏和肾脏功能不全。与其由人工逐一评分,我们可以让AI模型来完成。这为我们提供了连续性特征。然后,我们可以利用这些信息进行GWAS。

    VJ: 这就是你们用来找出基因与表型之间关联的方式,对吧?

    KB: 是的,没错。一旦我们找到了这些关联,我们还需要弄清楚这些遗传变异在生物学上是如何发挥作用的。首先,我们需要弄清楚这些遗传变异作用于哪些细胞类型。它可能会影响多个基因,因此我们要预测变异的具体作用位置。接下来,我们要了解它的作用机制,比如它是增加了信使RNA的数量,减少了,还是改变了剪接方式,从而产生了不同形式的蛋白质。

    我们有一些机器学习方法可以预测这些方向性,这些方法目前在生产中已被使用,帮助我们解读变异信息。 这使我们能够了解,某些变异可能导致更多的蛋白质合成,而这些蛋白质在某些人群中与疾病相关,从而为我们提供了调节疾病的线索。

    我们有多种方法用于分析细胞影像。 例如,我们使用递归等技术来预测小分子的作用效果,或研究细胞表型。我们还采用主动学习系统来发现新药物,并在生物疾病模型中进行实验。因此,相比于制作小分子工具分子,我们现在直接调节基因的表达水平。我们不仅可以单独调整基因,还可以进行成对调整,甚至多基因调节。

    我们使用的是一种叫做TALEN的技术 (ZP注:TALEN是一种利用转录激活因子样效应物核酸酶进行基因组编辑的技术。) ,而不是CRISPR (ZP注:CRISPR是一种源自细菌的免疫机制,已被开发成一种强大的基因编辑工具。) ,能够连续调节这些基因的表达,从少量调节到大量的蛋白质或轻微降低蛋白质,并观察结果。这种方法允许我们进行这种调节。我们有一个完整的主动学习系统,它会整合来自遗传学的数据、文献中的信息以及经验性的知识。这种系统能够处理和分析各种数据,生成假设,并用来指导进一步的研究。

    如果我们不能进行全基因组筛选,也无法逐一尝试所有可能的方法,我们会使用一种模型来设定靶向。 这个模型会考虑各种要求,比如RNA表达谱达到某种模式、期望的蛋白质组学数据或功能测定结果,以及靶向的非毒性和可操作性。然后,模型会进行一轮实验,并提供反馈信息。根据这些反馈信息,我们可以决定下一步的策略。例如,基于我的实践、连接性和理解,我可能会选择对某个基因进行突变,因为它是这两个蛋白质的共同祖先。这有助于我们了解信号传导的机制。我们已经证明,这种方法比随机筛选快了大约20%。

    在进入临床阶段时,我们会使用机器学习技术,并已经在计算病理学方面工作了一段时间。 我们甚至设立了GSK计算病理学教授职位,当时有Rad在我们团队中紧密合作。我们主要利用计算病理学来处理一些关键问题,比如在肿瘤学中,确定靶向在组织中的表达情况。传统上,人类病理学家会查看样本,给出一个大致的估计,比如认为63%的切片表现为某种情况,并将样本分给几个人进行高、中、低的评分。然而, 使用机器学习技术,我们不仅可以准确地量化表达水平,因为计算棕色像素相对简单,还可以确定具体的细胞类型。 这样,病理学家可以从这些繁琐的工作中解放出来,去做其他更复杂的任务。当你获得试验的反应数据后,我们可以分析哪些细胞类型的表达与响应性相关,并基于这些数据迭代模型。

    我们进行了一些高度仪器化的第二阶段临床试验,测量了比以往更多的蛋白质组学指标等数据。 虽然这非常昂贵,而且很多人质疑这些数据是否有用,我们也承认大部分数据可能不会直接带来有用的信息,但其中一些数据确实会有价值。通过分析这些数据,我们能够找到一个特定的患者子集,我们知道如果降低病毒表面抗原水平,他们几乎可以达到功能性治愈。知道了这一点后,我们就可以寻找一种药物来将这些患者带到这种状态,然后用这种药物进行治疗来达到预期的效果。

    图片来源:Unsplash

    从实验到测量:ML推动药物研发领域产生新发现

    VJ: 好的,那么对于观众来说,你能说说现在在GSK使用的机器学习(ML)与10年前的方法之间的差距吗?比如在时间、成本或其他方面的差距。

    KB: 对于这些方面的其中一些事情,过去必须做更多的实验。例如,在遗传学方 面,如果你不知道变异的具体作用,你就必须去构建一个模型系统,调节其表达水平,或过表达或不表达来制作大量的替代读数。许多关于发现的连续性特征的研究,过去要么依赖大量的放射科医生手动评分,要么需要很长时间,因为这是非常容易平行化的成本。 我们可以计算,但是复杂性在于你不能仅通过一个非常小的高维空间来寻找某种关联。

    VJ: 是的,但你就是无法获得足够的实验数据。

    KB: 确实,要可靠地完成这些操作,尤其是一些非常复杂的技术,确实不容易。例如,乙型肝炎的案例中,使用的是基于自编码器的技术,但你也在做很多特征压缩的工作。 现在AI变得如此有用,是因为我们拥有了更多的测量技术,比如基因组测序、RNA测序和单细胞分析等。 虽然我们现在有了更多的数据和测量,但如果没有机器学习,我们无法充分利用这些数据。 我的核心假设一直是,医学的发展随着新的测量技术的出现而推进。 随着测量技术变得更便宜,我们可以学习到更多的东西。比如心脏病学领域,Swan-Ganz导管用于测量心脏中的参数,通常不是很多人愿意做这种操作。而第一个进行这种操作的人,他竟然选择把导管插入自己身上,结果自己晕倒了。这真是太疯狂了。

    VJ: 顺便提一下,老式的方法也是这样。

    KB: 是的,像那个发现幽门螺旋杆菌的澳大利亚人一样,他也是非常疯狂的。他们当时有一个关于细菌的假设,但并不确定具体情况。他们决定尝试用一些方法,尽管风险很大,希望能够清除这些细菌。结果,他们确实在这个领域取得了重大突破,虽然过程非常冒险。

    VJ: 我相信他们确实取得了突破。

    KB: 是的,这些实验是值得的,他们确实在家里进行了尝试。从这些实验中,我们发展出了血压监测仪等设备,现在还有连续脉搏测量等技术。随着这些技术变得更加便宜,我们在心脏病学领域学到了更多,进而推动了新的发现。

    我们现在有了更多的测量技术,但这些数据的维度非常高,以至于即使是像你这样的专家也很难从大量的表达变化中提取有用的信息, 尤其是在对比疾病患者与健康个体时。如果没有机器学习,我们根本不知道如何处理这些数据。我们可能只能做一些线性分析,挑选出最明显的部分,但这可能是不准确的。因此,在数据处理方面,确实很难进行比较,尤其是在这种数据复杂性发生变化的情况下。

    对初创公司来说,数据比复杂算法更重要

    KB: 如果是在药物研发领域,或者说广义上的AI应用,首先需要关注的是数据,尤其是独特的数据。 一个常见的问题是,很多人尝试构建某种东西,但他们手头并没有完全符合需求的数据。他们可能会说:「我们没有完全符合要求的数据,但我们有这种类似的数据。如果你能解决这个问题,那也许就会有用。」 但人们往往忽视了现有的数据只是现实世界的一个代表。 关键是要认识到,现有的数据可能并不完全正确,你需要去生成数据。 实际上,能够生成数据是至关重要的,因为在某个阶段,你会遇到数据不足的问题,这时你需要生成数据来建立模型。这也会成为一个竞争优势,因为你不仅拥有能够生成的数据,还有公开的数据。这使你能够更有效地利用这些数据,从而更快地推进工作。

    VJ: 理想情况下,应该是有人支付费用让你生成数据。

    KB: 是的,理想情况下,他们会提供数据,并支付费用让你将模型卖回给他们。需要明确的是,GSK不会进行这种交易。但数据方面确实是关键,生成更多的数据是很重要的。因为坦白说,更多的数据加上一个简单的算法,通常更容易取得成功。就像Netflix挑战赛那样,获胜的关键在于引入不同的、正交的数据,而不仅仅是更聪明的算法。 因此,一个关键的教训是首先注重数据的生成,然后再考虑机器学习和复杂算法等问题。 我看待很多来找我们的公司时,会考虑以下几个方面:你们拥有何种独特的数据?你们生成数据的能力如何?你们在某个领域的规模是否比我更大?如果你们的提案只是说:「哦,我们有聪明的人,给我们数据,我们会做很酷的事情。」 那我就会觉得:「我也有聪明的人。」 我们需要看到一些真正有价值的独特优势。

    VJ: 在你看来,什么样的数据才会有差异化呢?

    KB: 我认为, 数据要么是独特的,能够适应特定需求,因此非常干净,批次效应较少;要么你能够生成更多的数据,并且可以控制数据的供应方面。 这些因素能够帮助你理解你的方法在不同情境下的表现,这将反映出人们可能遇到的问题,因为系统中可能存在一些偏差。我只是从抽象的角度考虑这些关键点。一旦你掌握了这些,机器学习的具体方法其实并不重要。最终你销售的是解决方案而不是技术细节,客户并不关心它是否是像Mechanical Turk那样的模型,或者其他什么东西。 只要你训练出一个很好的随机森林模型,效果显著,不管是否是神经网络或其他算法,都是可以接受的。

    VJ: 有些人会使用随机森林,这样做是有效的,对吧?

    KB: 确实如此,随机森林应该是基准,每个人都应该从它开始。然后,你应该总是将你的信息增益与随机森林进行比较,虽然这样可能会让你长时间感到沮丧。

    VJ: 是的,或者任何其他更简单的方法,比如基础的神经网络,实际上基本上就是逻辑回归。实际上,这些方法都很相似。有趣的是,我认为这会回到原点,我们现在非常喜欢复杂的东西,但最终可能会看到更多简单方法的回归。

    KB: 是的,我认为人们会意识到这一点。比如,David Han写的那篇论文,我们可能很早就分享过,讨论了分类器复杂性和进展的错觉。那是很早期的机器学习论文,分析了UC Irvine的一些数据集。在他们看来,复杂的方法比如SVM,其实就像是Fisher的线性判别分析一样,只是一些额外的工具,处理的是非常简单的数据集。论文显示,基本的简单方法已经能够做到大部分工作,而为了那额外的5%提升,你才需要额外的复杂性。我认为这在现在仍然是成立的。

    VJ: 假设初创公司拥有差异化数据,算法中的哪些特征更让你兴奋?

    KB: 我希望看到经过良好表征的稳健性和可靠性标准。 不要只给我一个点估计,而是要提供一个点估计以及一些置信度和额外的测量标准。 必须具备这些。

    VJ: 即使如此,这实际上有时也很困难。

    KB: 是的,我知道。我仍然认为有很多机器学习论文只是展示了他们的方法更好,给出了表格和数据,声称他们的方法比其他的自然要好。而且,有时这些方法在某些方面确实有所不同。但对于很多人来说,0.1的AUC差异可能并不值得,他们可能不在乎这种差异是否值得他们花钱购买新的技术。

    VJ: 哦,是的,如果是0.1的AUC差异,这不会得到重视。

    KB: 是的,你需要的是精度曲线。这真的很奇怪,虽然AUC很重要,但你需要确定要达到什么水平才能使其有意义的不同,然后看看它的工程质量如何。接着,看看我是否能将其集成到我的系统中。它们是如何工作的?安装方面的情况如何?因为通常有些人负责公司中的使用,而另一些人则负责操作和运行。你如何控制模型漂移等问题? 你是在向用户销售,但购买和安装的人也是决策过程的一部分,比如工程方面的内容。你必须非常仔细地考虑如何使它对他们来说易于使用。 我经常看到很多人把它放在云端,让我在我的云上运行,或者让我在本地运行。你需要考虑不同的方式将其推向市场。根据行业的不同,更多的方式可以使集成、监控、安全等变得更容易,这样对他们来说就更无摩擦。

    图片来源:Unsplash

    AI与真正的生物机制建模相碰撞:更关键的是「有结果的数据」

    VJ: 我知道你还喜欢编程,也喜欢玩AI。那么,最近你亲自动手做了什么?你最近在做什么项目?

    KB: 我最近做的一个项目是处理我收到的各种类型的电子邮件报告。我通常只有一个问题需要了解,但却无法逐一查看所有内容。于是我决定下载这些电子邮件,把它们按照标题整理到我笔记本上的一个文件夹里。然后,我运行一个小型的机器学习程序,这个程序会根据我设定的问题生成电子邮件并发送给我。这是我最近做的一个项目。另外,我对长上下文窗口的人工智能模型非常感兴趣,我在考虑是需要一个长上下文窗口来进行任务规划,还是需要一堆针对不同任务调优的专家级语言模型或代理。

    VJ: 是的,这样做是为了处理和筛选信息。

    KB: 是的,现在搜索方式已经发生了根本变化。 以前是让我找到文档,然后我自己阅读;现在则是提供我的问题,让系统阅读文档并告诉我答案。 我最初版的用于推理科学文档的语言模型实际上是我自己编写的。然后我制作了原型并将其整合到一起。即使如此,我认为你仍然需要亲自构建一些东西。这不仅能保持你对各个方面的思考,还有助于你在公司处理基础设施时,更好地理解这些系统。如果你定期测试它,或者发现做某件事很困难,那么人类可能会减慢它们的速度。我经常考虑的一个问题是,如何加快GSK内部所有人的迭代周期。不仅仅是我在写代码,还包括让人们访问数据、获取数据和思考问题。如果他们需要三周的时间来回答一个简单的问题,那么这种延迟会在整个链条中被放大。之后可能需要一个季度或两个季度才能完成相关工作。

    VJ: 好的,假设五年后的今天,我们再做一次播客。希望我们能早点再做一次,但我们就以五年为例。你期待哪些在未来五年里会让你兴奋的例子?显然,这些事情现在还没有发生,所以我想了解一下你认为你们会取得什么进展?

    KB: 我认为我们将会有多种计算生物标记计算方法,所有药物都会有相关的软件支持。我认为这将成为所有公司的趋势。我们会看到每种药物周围都有软件来预测谁应该使用它,他们的基线状况如何,以及在药物使用后可能会有什么变化,因为预测个体对药物的反应在基线时非常困难。也许到那时我们会在这方面有所进步。

    我认为我们会对免疫治疗 (ZP注:免疫治疗(IO)是肿瘤治疗领域中一种革命性的治疗方法,它通过激活或增强患者自身的免疫系统来识别和攻击肿瘤细胞。) 有更多了解。GSK实际上是一个免疫编程公司,疫苗就是编程免疫系统的方式。我们正在看到许多不同的疫苗。我认为我们将真正理解免疫治疗的整个情况,目前只有大约 20% 的患者会有反应,而这 20% 的反应是非常惊人的。我们将会更多地了解免疫疾病。因此,我认为我们会看到更多关于软件的应用。

    但我认为单细胞和干扰基因组学的时代才刚刚开始。比如在GSK,我们的数据生成是指数级增长的。从我开始工作以来,我们正在生成大规模的perturbational datasets,主要是为了成为一种查找表,这样我就不必做实验了。但更重要的是,现在它们成为了一个推断表,可以通过推断来代替实际的实验。

    VJ: 我认为人类基因组计划将成为一种查找表。

    KB: 没错。所以人们在建立这些东西。我认为在五年后,我们将会做更少的实验,但这些实验会更具信息性。此外,我认为这还会与观察性队列研究相结合。所以我会在不改变管理的情况下测量人们的情况,我们只是了解疾病本身。我们实际上是在进行试验以了解疾病,以补充公共和私人数据。我认为大家都会这样做。与此同时,我们也将真正理解疾病异质性到底意味着什么。

    VJ: 它将如此神秘,又如此可解读。

    KB: 是的,我认为我们会对发生的事情有更多了解。有趣的是,机器学习将开始与真正的生物机制建模相碰撞,因为我们对医学和器官系统有很多了解。 我们不必仅仅依赖基因表达等数据来训练算法,而是可以向算法提供关于生物体如何相互作用的结构性先验知 识。 因此,我认为系统医学的方法将在这里变得非常有用。我相信,我们将会有更多的模型用于发现和系统医学中。

    VJ: 在推进这一领域时,你认为最限制进展的因素是什么?可能是人才、资金,还是其他因素?

    KB: 我尝试回答这个问题—— 数据是关键,但真正的答案是有结果的数据。 比如说,我可以生成所有我想要的perturbational data,但我真正需要的是,比如说来自健康人和病人的样本,而且我还想知道当我进行干预时发生了什么,临床试验实际上就是我们对某人进行干预,看看会发生什么。因果关系,嗯,我们需要的是结果数据。所以结果数据是标准的靶向数据。对我来说,最完整的方法是招募200名患者,并对他们进行非常详细的监测。我们应该尽可能多地测量一切,然后将这些数据带回来。患者的负担是一个问题,我们不能让他们承受过多的负担,这之间总是存在紧张关系,所以我们应该以合适的方式进行。但是有结果的数据是限制进展的关键,因为你知道我们对他们做了什么,测量了哪些步骤,了解他们的疾病进展和他们的情况。

    VJ: 所以我们应该如何最小化这一问题?

    KB: 这正是我们需要创建更大规模的私人联盟或类似的公共机构的原因。

    VJ: 你知道,大家都想做的就是:哦,我能否获得GSK的所有临床数据?但我作为一个不同的公司会说,不,当然不行,我不能把我独特的竞争优势交给你。我正在用这些数据来开发新东西。但实际上,我们需要的是大规模的观察性队列研究。目前这些东西确实存在,但它们的测量受限于它们当时的条件和假设。如果你去看其他东西,发现了新的东西,你会想,「哦,我如何测量这个?」 我们需要建立样本库,并且根据斯莱克定律(Skeptics' Law),这些样本的分析变得更便宜、更好。

    KB: 是的,确实如此。 我们不能仅仅依靠基因测序和电子病历,还需要加上样本, 并且我们需要长期跟踪这些人群。比如说,我们现在对免疫系统随时间的变化还了解得很少,这实在是有些令人震惊。因此,我认为这就是限制我们进步的关键步骤。而且,我们还需要有关于这些人群的治疗和结果数据。

    如果机器学习社区或药物发现领域有更多这样的数据,我们会处于一个更好的位置。我认为这将会到来,但老实说,这实际上是政府和产业需要合作资助的工作。也许在初期会有时间独占访问等安排,但最终,如果这些数据成为公共资源,它们就会成为公共利益。

    但我认为, 如果你看看机器学习取得重大进展的地方,通常是在数据收集成本较低的领域。 例如,网络搜索、图像网络等。这些领域的数据集很丰富,因此我们在这些方面表现得很好。作为一家公司,我们也将数据集用于机器学习挑战赛,比如欧洲的挑战赛。我们举办了基因解码挑战赛,专注于干预研究,还有一些其他的挑战,你可以在 GSKAI 上看到,我们还设置了奖金,真的能赚到钱。

    ☟☟☟

    ☞人工智能产业链联盟筹备组征集公告☜

    ☝#图文新星计划#