SVs识别哪家强?PromethION为您揭晓

继PacBio首次确认一种疾病大片段缺失突变【1】引起广泛关注后,人类基因组结构变异联盟又分别用Illumina、PacBio以及Bionano对人类基因组结构变异(SVs)进行分析【2】,而未来组兄弟公司希望组则瞄准ONT平台的潜力,通过GridION在一例全外显子组检测阴性患者中准确的鉴定出基因组结构变异,为胚胎植入前遗传学诊断提供重要参考【3】。近日,预印本在线期刊bioRxiv也发布了一篇比利时安特卫普大学De CosterWouter等人的研究成果,详细地比较了ONT平台的MInION和Prometh ION在检测人类基因组结构变异上的实力【4】。

本研究通过对两种平台数据SVs的高灵敏性识别以及对最优参数的比较,发现比对软件Minimap2 和SVs识别软件Sniffles是最精确也最有效率的工具,同时研究还给出了从个体或群体的长读长基因组中鉴定、注释并描述数以万计SVs的流程(https://github.com/wdecoster/nano-snakemake/),最后还对长读长测序研究鉴定SVs的未来做了展望。

为什么用长读长测序技术检测SVs?

SVs包含拷贝数变异(CNVs、缺失和复制)、插入、倒位、易位、移动元件插入、重复序列扩张甚至上述情况的组合。目前,使用短读长测序技术对大部分SVs的识别都不太理想,主要因为有些插入变异长度超过了测序技术的读长,有些是富含GC区域,对本身有测序偏好的技术产生困难。有研究人员评估基于短读长技术的变异检出算法错过了约77%的插入,而PacBio在检测结构变异上的灵敏度是Illumina的三倍【2】。ONT平台的MinION有512个通道,最新产能达到30G,用于人类基因组的测序需要多个MinION并行且耗资不菲,而拥有多达3000个通道、12000个纳米孔的PromethION则完美的解决了这个问题。

本研究使用了5个PromethION flowcells覆盖了人Yoruba NA19240深度为59×的基因组,最长read为177Kb,MinION测得的最长read为219Kb(见Table 1)。因为文库打断为20Kb的片段后产量会更高,因此结果反映出了产量和读长的反比关系。

MinION VS PromethION

MinION和PromethION两个平台产出数据的读长近似,但是在和参考基因组GRCh38比对后发现MinION产出数据的平均质量分数和一致性要略高一些(见Figure 1)。

比对工具比较

接着,研究又比较了ngmlr、LAST以及两种参数设置下的minimap2这三个比对软件,LAST产生了很多分离的比对序列导致比对上的reads较短,而minimap2运行速度最快,LAST最耗时,另外,一致性比例和比对覆盖度中值较为一致(见Table 2和Figure 2)。

SVs识别

研究又使用Sniffles和NanoSV分别对SVs进行calling,并在识别插入时还使用了nplnv,三种工具分别在上述四种比对软件的结果下运行,最后发现Sniffles是目前评估SVs最快速的工具(见Table 3)。

研究者还对上述比对和SVs识别工具进行组合以评估、识别鉴定出来的SVs,结果显示在使用minimap2比对后Sniffles软件表现出更高的精确性。同时,研究还评估了Sniffles、NanoSV以及nplnv识别的倒位,nplnv得到的结果最佳。另外,研究评估了SVs的长度以及准确度并且描述了鉴定到的变异。

最后,在鉴定到SVs后,研究者还注释了重叠基因、重复片段等信息,研究表明重叠基因与判别这些变异的致病性相关,非编码区的SVs的影响目前还不明确,而位于重复片段上的SVs注释则扮演着双重角色,一方面它们是SVs形成的热点区域,另一方面对于比对造成重重困难,显著的增加了变异识别的假阳性。

该研究最后展望了长读长测序检测基因组SVs的前景。SVs让人类基因组呈现更高的多样性,越来越多的研究表示以前的人类基因组数据低估了SVs的数量及其在健康、疾病中的作用,少数较大的变异会导致许多遗传病疾,据悉,非编码区的结构变异也是潜在驱动突变的因素【5】。

由于大小所限,SVs并不能像单核苷酸变异(SNV)那样通过短读长技术来研究,而低深度的长读长覆盖就能够挖掘有用的结构变异信息【1】。为区分出那些致病的SVs,研究者们还需要从多个群体着手对SVs进行综合性分类,研究人员在这一领域还大有可为。相信,以PacBio和ONT为代表的长读长测序技术将在SVs的研究上发挥不可或缺的重要作用,尤其是PromethION,其超长读长和超高产能的特性都已经让其成为众多组学领域的首选。

参考文献

【1】Merker J D, Wenger A M, Sneddon T, et al. Long-read genomesequencing identifies causal structural variation in a Mendelian disease.[J].Genetics in Medicine Official Journal of the American College of MedicalGenetics, 2017, 20(1).

【2】Chaisson M JP,Sanders A D, Zhao X,et al. Multi-platform discovery ofhaplotype-resolved structural variation in human genomes.[J].  bioRxiv preprint first posted online September. 23, 2017.

【3】Hefan Miao, Jiapeng Zhou, Qi Yang,et al. Long-read sequencing identified a causal structural variant in anexome-negative case and enabled preimplantation genetic diagnosis. bioRxivpreprint first posted online May. 21, 2018.

【4】Coster W D,Roeck A D, Pooter T D, et al. Structural variants identified by OxfordNanopore PromethION sequencing of the human genome. bioRxiv preprint first posted online October. 3, 2018.

【5】Dixon J R,Xu J, Dileep V, et al. Integrative detection and analysis ofstructural variation in cancer genomes. Nature Genetics50, pages1388–1398 (2018).

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注