“输入病人疾病相关的多组学数据,如胃癌病人,AIGP平台能够分析其多组学数据,找到针对这个胃癌病人的靶点,根据这个靶点生成一个抗体甚至一系列有多样性的蛋白。最后,一键式生成的蛋白回到自动实验室里合成蛋白。”
“大家以前觉得AlphaFold 2已经非常准了,但在与进化不相关的蛋白,即在人和病毒斗争过程中演化的蛋白方面,实际建模得不太好。而通过大模型的训练以及下游的结构预测,我们得到一个模型比AlphaFold 2还要准三倍,在预测蛋白质结构时的速度比AlphaFold快100多倍。”
AI Generated Protein(AI生成蛋白质)平台能力。
3月23日,百图生科发布生命科学大模型驱动的AIGP —— AI Generated Protein(AI生成蛋白质)平台,旨在利用AI设计创新蛋白质的能力与行业伙伴共同研发更多前沿药物和其他生命科学项目,同时驱动AIGP平台的技术进步。
“AIGP平台第一个功能是,根据形状及理化性质(物理性质和化学性质)需求,生成一系列满足需求的蛋白。第二类功能是根据一个蛋白质靶点生成对应和靶点结合的蛋白,比如针对新冠生成一个蛋白,甚至针对石油相关的分子生成一个酶。第三类功能是输入病人疾病相关的多组学数据,如胃癌病人,AIGP平台能够分析其多组学数据,找到针对这个胃癌病人的靶点,根据这个靶点生成一个抗体甚至一系列有多样性的蛋白。最后,一键式生成的蛋白回到自动实验室里合成蛋白。”百图生科CTO宋乐对澎湃科技(www.thepaper.cn)介绍道。
百图生科(BioMap)是生物计算引擎驱动的创新药物研发平台,由百度创始人李彦宏发起创立,致力于将先进AI技术与前沿生物技术相结合,构建独特的靶点挖掘及药物设计能力,开发创新药物。
对于百图生科AIGP平台的发布,世界生物信息学界的著名学者、哈佛医学院计算生物医学中心创始主任、R语言的主要发明人、百图生科科学顾问委员会委员罗伯特∙杰特曼(Robert Gentleman)表示,在哈佛,他的团队同样在进行蛋白质生成/预测模型的相关研究,“百图生科在这个方向上走得很远了”。
杰特曼期待,AIGP会带来更多的蛋白质/抗体生成模型,抗体工程师们可能会从这些模型的预测中发现自己从未注意过的细节,“如果将这些模型视作‘idea generator(想法生成器)’,一切会变得更加美妙”。
目前,百图生科AIGP平台设置了3类功能模块,分别是Function to Protein Design(F2P,根据结构、功能、可开发性等功能指标设计/优化蛋白质)、Protein to Protein Design(P2P,给定抗原等目标蛋白,设计与之以特定方式结合的抗体等蛋白),以及Cell to Protein Design(C2P,给定细胞,发现调控细胞功能的靶点蛋白并设计相应的调控蛋白)。
这个平台背后是百图生科打造了两年多的千亿参数跨模态大模型“xTrimo”(The Cross-Modal Transformer Representation of Interactome and Multi-Omics)。其从跨物种、跨模态的生命信息中学习蛋白质如何构成和实现功能、如何相互作用、如何组合和调控细胞功能的关键规律,从而破解生命的自然语言——蛋白质。
对于近期由ChatGPT引起的对“涌现”的关注,在这个千亿参数AI大模型中有何体现?
宋乐对澎湃科技解答道,第一个例子体现在蛋白质自然度,即输入一个蛋白质模型可以评估这个距离自然的蛋白有多接近,蛋白表达体系能不能表达这个蛋白。“我们发现大模型的预测值和真实实验体系测出来的结果有非常好的相关性,甚至超过了60%、70%,如果变成分类问题,则可以达到80%以上。在经过海量蛋白质的训练之后,模型似乎学到了蛋白质或生物进化的过程,学到了什么样是蛋白质。这是我们惊喜的地方,但同时也是大模型自然的结果。”
第二个例子体现在抗体抗原方面,“大家以前觉得AlphaFold 2已经非常准了,但在与进化不相关的蛋白,即在人和病毒斗争过程中演化的蛋白方面,实际建模得不太好。而通过大模型的训练以及下游的结构预测,我们得到一个模型比AlphaFold 2还要准三倍,在预测蛋白质结构时的速度比AlphaFold快100多倍。”宋乐说。
中国科学院院士、著名免疫学家董晨教授认为,“AI能够解决的问题,就是对大数据的分析和进一步的演绎和应用。在当下的时间节点,AIGP确实是一个呼之欲出的平台。相信AIGP对于我们理解蛋白质,以及在生物系统中研究和发现它的功能和调控,乃至于将来研发新药,都会有非常大的作用。”
不过百图生科CEO刘维也坦言,现在的AIGP只相当于1.0阶段,远不完美。
那为何要在当下发布?“摆在面前的既有机遇也有挑战。”刘维说。
机遇在于,通过蛋白质大模型对于任务模型的赋能,其发现AI预训练大模型确实对多样化蛋白质问题有非常快速的赋能和提升。他举例称,哪怕在具体问题如某一个靶点或蛋白上,原来积累的数据并不够,在任务模型上的积累并不够。但通过AI大模型对任务的赋能,在有些问题上就能比较快达到今天的SOTA(state of the art,在特定任务中目前表现最好的方法或模型)能力。
挑战在于,现在多种任务的成功率普遍有限,比如蛋白质弹头(“弹头”是抗体)设计能力,“将7000个膜表面蛋白上都输入到AIGP平台,只有一小部分在一两个轮次内可以找到成功的弹头。如何从开始展露一些能力到提高其泛化能力,提高速度,这需要专业伙伴的合作,他们往往带来对问题更好的定义,在生物学领域的know-how(专门知识)也有非常强大的积累。”宋乐说。
而如果每一种蛋白需要重新搭实验体系,那可能10年的时间也只够在很小的领域向前走几步。
“虽然我们今天很自豪有高通量干湿闭环的能力,但我们的湿实验基本只到蛋白本身的高性能制备,以及局限在我们自己关注的一小类免疫学问题上。而如果专业伙伴带来一些前沿项目,即用现在业内主流方法无法设计的蛋白,我们的合作伙伴可以更快加速前沿项目的研发,我们也可以把其想要的前沿蛋白质变成现实。”宋乐接着说,“这是我们今天鼓足勇气走出这一步,向整个业界发布AIGP平台的原因,希望大家一起迭代和打磨它。”
据刘维透露,6月开始会进一步发布AIGP 1.5版本,请公众的专业用户使用。一年内发布AIGP 2.0版本,在蛋白质弹头设计等一些核心功能上提供更多自主使用能力,为广大开发者提供普及化的蛋白质生成能力,“让做蛋白质的门槛从专门的Biotech(生物科技公司)降到生命科学的研究者都能使用的水平。”