记者19日从中国科学院植物研究所获悉,该所研究人员开发了一种不依赖参考基因组的组装质量评估新工具CRAQ。该工具可以在单碱基水平检测和评估基因组序列的精准度,并提供相关纠错方案。相关研究成果在线发表于《自然·通讯》杂志。
近年来,随着测序技术和算法不断发展,大量物种基因组被陆续测序和组装。然而,多数基因组序列中仍然存在一些组装错误,这给相关研究带来了一定程度的影响。正因如此,精准区分和鉴定高质量和低质量的基因组序列至关重要,不仅可以为基因组组装质量提供评估依据、进一步改进提供靶点,也可以为后期比较基因组和功能研究位点提供基因组序列质量认证。
参考基因组组装质量评估的新方法。中国科学院植物所供图
“当前,虽然已有一些基因组组装质量评估的方法和指标,然而它们大多仅提供一个总体的评估值,不能针对特定区域或碱基给出精准的评估信息。”论文通讯作者、中国科学院植物研究所研究员焦远年介绍。
CRAQ通过将原始测序序列比对到组装的基因组上,基于序列比对产生的有效剪切对齐信息,精准地检测基因组中存在的组装错误。它不仅可以识别基因组内小规模的区域组装错误,还能够识别大范围的结构组装错误。经过统计和标准化处理后,不同类别的错误数量能够被转化为相应的组装质量评估指标,以反映不同层面的基因组组装质量。
此外,CRAQ能够将组装错误与基因组内的高杂合区域或单倍型差异区分开来,并在单碱基分辨率下指示低质量组装区域和潜在错误断点的位置。“因此,CRAQ能够帮助研究人员识别组装序列中存在的嵌合片段,并将这些片段准确地拆分,以利于结合光学图谱或构象捕获信息进一步构建结构更加准确的参考基因组。”焦远年说道。