一个国际科研团队在9月13日出版的《自然》杂志上刊发论文称,他们开发出一种新算法,来比较“阿尔法折叠”数据库中所有已预测蛋白质的结构,揭示了不同物种蛋白质之间的相似性。最新研究结果有助科学家理解蛋白质的进化历程,并为人类免疫蛋白质的起源提供了新见解。
新算法揭示蛋白质进化的秘密。图片来源:欧洲生物信息学研究所
苏黎世联邦理工学院科学家开发了名为“折叠搜索聚类”的新算法,可同时分析大量蛋白质结构。研究团队将该算法应用于“阿尔法折叠”数据库中2亿个已被预测的蛋白质结构,识别出了200多万个独特的结构聚类——一组在三维形状上彼此相似的蛋白质结构,其中1/3的聚类以前没有被描述或分类。
研究团队指出,了解蛋白质结构对于研究其功能和进化至关重要,尽管科学家在基于序列的蛋白质结构预测方面取得了重大进展,但计算限制使大规模研究这些结构变得困难。折叠搜索聚类算法能以前所未有的规模对结构和集群进行比较,将完成此类任务的时间减少了几个数量级:使用现有方法对所有结构进行聚类需要10年,而使用折叠搜索聚类只需5天时间。
研究还深入探讨了这些聚类在进化上的意义。虽然大多数聚类都很古老,但约4%的聚类似乎属于特定物种,为进化现象提供了新见解,如新基因如何从基因组的非编码区域产生。研究人员指出,这项工作不仅是为了更有效地进行比较,而且能更好地了解蛋白质的进化史。
这项研究中最有趣的发现之一是:人类免疫系统蛋白质与细菌中发现的蛋白质之间的结构具有相似性。这表明,人类参与免疫系统的蛋白质可能与细菌物种有共同的古老的进化起源,这可能重塑人们对免疫系统的理解,也为未来研究蛋白质功能和进化的奥秘制定了路线图。