LAI——基因组质量评估新标准

近日,来自美国密西根州立大学的区树俊博士等人在《Nucleic Acids Research》上发表了一篇名为《Assessing genome assembly quality using the LTR Assembly Index (LAI) 》的论文,提出了一种无需用参考基因组衡量组装连续性的方法——长末端重复序列组装指数(LTR Assembly Index,LAI)。该研究阐明LAI独立于基因组大小、LTR-RT含量以及基因空间评估指标(如BUSCO和CEGMA)等参数,还发现使用长读长技术比短读长技术能获得更好的组装连续性。而且,LAI能够通过选择组装软件促进迭代组装的优化并鉴定低质量的基因组区域。为了更好的应用LAI,基因组中完整的LTR-RTs应至少占0.1%而全部的LTR-RTs至少占5%。目前LAI程序免费在GitHub上开放(https://github.com/oushujun/LTR_retriever)。

LTR(Long terminal repeat)是存在于LTR反转录转座子(LTR-RTs)两侧翼的长末端重复序列,而LTR-RTs是散在的重复元件,通常在4-20Kb左右,是植物基因组中主要的反转录转座子成分。转座元件(TEs)由于组装难度大,迄今都没有针对重复序列建立起可靠的评估标准。Contig N50、BUSCO和CEGMA等评估方式或多或少受到人为、有无参考基因组等因素的影响。

研究者发现使用PacBio长读长测序技术比第二代测序技术组装的玉米参考基因组中能找到更多的完整LTR 元件,还有研究发现对于海枣的LTR-RTs,短读长测序只能覆盖其中的小片段,因此需要更连续的基因组来鉴定更完整的LTR元件,而LTR_retriever软件可准确鉴定完整LTR-RTs,消除假阳性LTR且灵敏度超高、错误率极低——通过鉴定完整LTR元件数量来指示基因间的重复序列组装质量切实可行。

材料

本研究搜集了103个全基因组序列,均含至少5%的LTR-RTs以保证LAI评估准确性;高质量长读长基因组标准为contig N50>100Kb且BUSCO和CEGMA评估完整度>80%或者任一评估>90%。若基因组来自不同测序平台,则以构建contig的主要平台技术为准。又从核苷酸数据库收集21种植物共14,826个高质量BAC序列,筛选标准是标题注明“完整序列”且序列≥20Kb;少于10个gaps的BACs草图若序列片段≥20Kb也予以保留。BAC序列的相同片段聚在一起作为一个样本,若<3Mb或含少于5%的LTR序列则不用于分析。

方法

原始LAI计算方式如下:

本研究使用LTR_retriever鉴定完整LTR-RTs,为鉴定出基因组中所有的LTR序列,逐渐递增同源关系搜索的分化阈值,并使用LTR一致性(LTR identity)来反映LTR-RTs动态。

LAI计算步骤:

(1)  获取候选LTR-RTs

(2)  过滤错误候选结果、保留所有完整LTR-RTs

(3)  全基因组LTR-RT注释

(4)  计算LAI

在本研究中,使用LTRharvest获取候选LTR-RTs,并用RepeatMasker注释。在评估原始LAI后生成全基因组原始LAI分值,并计算LTRs的平均一致性。当全部LTR-RT在全基因组和区域的LTR-RT都少于1%时,将区域的LAI降低到原分值的10%以抑制LAI分值过高。

修正LAI计算方式:

LAI = raw LAI + 2.8138 × (94 – whole genome LTR identity),文中提到的LAI均为修正LAI。

结果

构建LAI

为检测原始LAI和LTR-RTs动态之间的关系,研究分析了20个使用长读长测序、组装质量较高的植物基因组,结果显示原始LAI的分值和这些高质量基因组的平均LTR一致性呈线性相关。通过LTR-RT的消除(r2=0.15,P=0.10)发现校正后的LAI和solo LTR含量之间没有明显关联。这些数据表明使用全基因组LTR一致性校正原始LAI行之有效(见Fig. 1A、B、C、D)。

Fig. 1 20个高质量植物基因组LAI的特性和校正

LAI特征

研究通过LAI和其他常用基因组评估方式对高质量基因组进行分析,结果表明LAI和这些基因组中完整LTR-RTs含量呈线性关系(r2= 0.45, P = 0.001) 。另外,LAI和全LTR-RTs含量(r2=0.17,P=0.07)、单倍体基因组大小(r2=0.09,P=0.21)、全scaffold大小(r2=0.14,P=0.11)、CEGMA完整度(r2=0.04,P=0.39)、BUSCO完整度(r2=0.04,P=0.37)以及contig N50(r2=0.03,P=0.49)等没有显著关联(Fig. 1E、F、G、H、I),表明LAI作为一种新的基因组评估方式和现有的基因组评估方式之间是独立的。总之,LAI在不同植物基因组大小、全LTR-RT含量和LTR-RT动态等方面都展现出较强的鲁棒性,反映了其在比较不同植物基因组组装质量上的潜能。

为了进一步检测LAI的特征,研究又分析了44个不同质量的植物基因组。和高质量组装基因组中的发现相似,LAI和全LTR-RT含量(r2=0.06,P=0.10)以及基因组大小(r2=0.0004,P=0.89)之间不相关,而与完整LTR-RT含量线性相关,和contig N50和scaffold N50相关性极低。

值得一提的是,BUSCO和CEGMA完整度无法很好的预估LAI的结果(r2≤0.06,P≥0.12),表明LAI呈现出的序列特性和基因空间的特性有差异;相反,CEGMA和BUSCO之间的结果较为一致。上述结果再次从侧面反映了LAI是一种全新的基因组评估方式(Fig. 2)。

Fig. 2 对不同组装质量基因组之间LAI和其他基因组评估方式的关系

用LAI比较测序技术

为了比较新测序技术和测序界的金标准——BAC测序技术的组装连续性,研究者分析了21种植物共14,826个高质量BAC序列和使用不同测序技术获得的70种植物全基因组序列。

结果发现高质量BAC序列LAI分值是所有测序技术中最高之一,平均分值为15.5,而以Illumina和Roche454等为代表的第二代测序虽大大降低了测序成本,但是其在解决重复序列上的能力却十分有限——主要以短reads组装的结果LAI分值都低于10,低于其他所有测序技术。Sanger全基因组鸟枪法测序(WGS)即使覆盖深度低至69×也还是获取了高质量的基因组,平均LAI达14.4,但因成本高、效益低等缺点导致构建高深度的BAC文库和补洞都非常困难。

近年,单分子长读长测序技术在基因组测序领域逐渐兴起。无GC偏向性的PacBio测序技术和超长读长的nanopore测序技术使获取高分辨率的复杂序列结构成为可能。研究发现,使用长读长组装的基因组获得的基因间的重复序列在各种不同的测序技术中是组装得最好的。虽然Sanger WGS基因组和长读长基因组的LAI分值没有统计学上的差异,但是显然使用长读长测序技术能够获取更高质量的基因组。例如,24个长读长基因组中的19个获得了高于10的LAI分值(79%),而18个Sanger WGS中高于10分的为12个(67%)(Fig. 3)。

Fig. 3 不同测序技术获得基因组的LAI分值比较

低质量基因组区的鉴定

上述结果表明,LAI与LTR-RT含量及基因组大小无关,因此,通过对LAI的精确估计,该方法可以使基因组组装质量实现可视化。为此,研究者以300Kb增量的3 Mb-sliding windows为基础,计算了基因组组装的LAI分值。结果表明,由PacBio长读长测序的玉米参考基因组(B73 V4)在整个程序集中平均分布有很高的LAI分值(Fig.4C)。在3号染色体区域玉米三个版本的参考基因组的LAI分数的比较,显示了组装质量的连续提高(Fig.4D)。

Fig.4 LAI分值反映重复序列区域的组装质量。A.水稻(Nipponbare MSU v7);B.水稻(Kasalath);C.玉米(B73v4);D.玉米B73基因组的三个版本。

LAI评估促进基因组组装优化

为了评估基因组测序和组装技术是否随着时间推移有所进步,研究者计算并比较了模式植物基因组的多个组装版本的LAI分值。结果表明,基于Sanger测序和基于BAC进行scaffolding组装的基因组具有较高的LAI评分,而基于NGS测序的基因组的LAI评分最低,这反映了二代测序技术在组装基因组重复序列及提升序列连续性等方面的劣势。相比之下,长读长测序技术大大提升了基因组的组装质量,显示了三代测序技术在基因组测序组装领域的巨大前景(Fig. 5)。同时,研究者利用LAI评估基于同一批Oxford Nanopore测序数据组装的四个不同版本的野生番茄基因组,比较各个组装策略的优劣性(Fig. 5D)。结果显示,基于Canu-SMARTdenovo方法组装的野生番茄基因组具有更高的连续性和完整性。

Fig.5 模式植物基因组的LTR组装指标

总结

鉴于LTR-RT序列是当下测序技术和组装算法的一大挑战,其组装质量可以反映出全基因组的组装质量。本研究开发的LAI解决了两个问题:①影响完整LTR-RTs在基因组间变化的因素如全LTR-RT含量(含完整LTR-RTs和片段化的LTR-RTs)等的可控化;②LTR-RTs的活性包括LTR-RTs的扩增和消除的可控化,两个因素使得LAI可以用来对不同物种基因组的连续性进行比较。分析证明LAI是可评估基因间重复序列的通用方式,基于此该研究提出了基于LAI分值的组装分类标准(Table 1)。

Table 1. 基于LAI的重复序列组装分类

BAC测序作为真核生物基因组测序的金标准,仍然存在很多gaps、组装错误并丢失大量序列。而长读长测序技术能跨越富含嵌套转座子插入和高度一致的重复序列,和其他测序技术相比能够得到较高的LAI分值,即获得更高的组装指标。

使用LAI,研究者可以评估基因组组装的质量、比较不同基因组版本的组装质量、选择最好的组装软件,并且首次实现不同物种之间基因间重复序列组装连续性的比较。随着测序技术和组装算法的不断发展,基因组测序正在从以测序本身作为焦点逐渐转变为以回答生物学问题为核心,LAI也因之成为基因组组装质量检验的重要手段。

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注