美国麻省理工学院和哈佛大学博德研究所最新开发出一种名为FLSHclust的新算法,在数十亿个蛋白质序列中发现了188个罕见且以前未知的CRISPR连接基因模块,其中包括新的VII型CRISPR-Cas系统。新发现为利用CRISPR系统和了解微生物蛋白质的功能多样性提供了新机会。
CRISPR系统已被用来开发越来越多的新型生物分子方法,包括著名的CRISPR/Cas介导的基因组编辑。而此前未知的CRISPR系统的出现,将推动这些生物技术进一步发展。
不过,尽管CRISPR工具箱已通过蛋白质序列数据库得到扩展。但常用的算法在挖掘包含数十亿蛋白质呈指数增长的数据集时,显得不切实际。
为了解决这一限制,研究团队开发了FLSHclust算法,这是一种通过序列相似性对蛋白质进行聚类的算法,与目前可用的方法不同,它能快速有效地分析大量蛋白质序列数据库。
利用新算法,团队在包含80亿个蛋白质和1020万个CRISPR阵列的宏基因组数据库中搜索罕见的CRISPR系统,发现了188个以前未知的CRISPR相关基因,同时鉴定并表征了一类新的包含CRISPR系统的Cas-14(即VII型),其作用于RNA。
此次新发现的系统十分罕见。研究人员表示,这种先前未知的Cas基因和CRISPR系统的发现,极大地扩展了CRISPR的多样性,揭示了CRISPR系统前所未有的组织和功能的灵活性与模块化,同时也表明大多数变异都是罕见的。
总编辑圈点
近年来,CRISPR-Cas9基因编辑技术在生命科学等领域得到迅速推广和应用。它成本低廉,简单易用,成为科学家做生物学实验的得力助手。不仅如此,该技术本身也成为生命科学领域备受关注的热门研究课题。需要指出的是,尽管CRISPR-Cas9基因编辑技术非常好用,但它并不完美。因此,发现更多的CRISPR-Cas系统,丰富了基因编辑技术“工具箱”,为生命科学研究提供了更多选择,同时也有望促进基因编辑技术继续迭代升级。