ONT Ultra Long与“Telomre to Telomere”的风云际会:首个人类X染色体完成图与甲基化图谱发布
以基因组完成图为参考基因组是动植物基因组和医学遗传学研究者们孜孜以求的终极目标之一。而人类基因组完成图则有望帮助我们加深对染色体功能和人类疾病的理解,对基因组变异的全面了解将改善目前使用短读取映射到参考基因组的生物医学中的驱动技术(例如RNA-seq,ChlP-seq,ATAC-seq)。在人类基因组测序组装发展历程中,科学家们陆陆续续发布一系列参考基因组版本。2001年人类基因组计划公布了首个人类参考基因组[1],2009年,基因组参考联盟(GRC)发布了人类参考基因组版本GRCh37。2013年人类参考基因组第20个版本——GRCh38发布,在当时被认为是世界上测序最精确的人类基因组,不断修修补补中使用至今。事实上,人类基因组尚未解决的区域还有很多,包括着丝粒周围Mb级别的微卫星区域,近端着丝粒短臂上的rDNA区域,长达几百Kb的片段重复,超过98%一致性的旁系同源基因等。因此,在人类基因组领域,Telomere-to-Telomere的完整组装是实现人基因组完成图的一个关键步骤。
近日发表在bioRxiv上的一项研究,利用Nanopore ultra-long、PacBio、10X Genomics等多种测序技术,组装出首个端粒到端粒的人类X染色体完成图和甲基化图谱,向重建完整的人类参考基因组完成图迈出了关键的一步。
材料与方法
基因组组装中重复的解决依赖于长度足以跨越重复区域的测序read,最近的研究表明利用5× Nanopore ultra-long read显著提升了组装基因组的连续性[2]。根据前人的研究进展,研究者推测高覆盖度Nanopore ultra-long测序将使人类染色体的第一次完整组装成为可能。
因此,研究者利用MinION测序仪获得了155 Gb 约50×覆盖度的Nanopore ultra-long数据,其中一半数据量的read长度在70Kb以上,最长达1.04Mb。取其中39×ultra-long数据与70×PacBio数据用Canu软件进行初步组装,获得基因组大小为2.9Gb, NG50为75Mb,超过了参考基因组GRCh38的56Mb。随后按照read长度从长到短的顺序进行迭代Polish,通过单独分析10X Genomics和Bionano数据来确定可能的组装错误,然后利用光学图谱排序定位,通过比对人类参考基因组将Contig分配至染色体。最终组装出2.94Gb的CHM13基因组,包含590个Contig,NG50达72Mb,估计共有序列准确度中值>99.99%,一些染色体被两条Contig覆盖,仅在着丝粒处发生断裂(图2a,chr10, chr12, chr18, etc.)。
图2 CHM13全基因组组装与验证
研究者采用先前测序的CHM13 BAC 文库(VMRC59 library)来评估组装基因组完整性,在总共341个BAC克隆中,有280个克隆99.5%以上的序列比对至本文CHM13基因组,明显优于其他近期发布的人类基因组(表1)。当用作调用其他基因组中的结构变体的参考序列时,CHM13表现出insertion和 deletion调用平衡,而GRCh38 则表现出deletion调用偏倚。并且GRCh38的inversion数量是CHM13的两倍,表明现有参考基因组可能存在一些定向错误。因此,在连续性、完整性和正确性方面,CHM13组装超过了所有之前公布的人类基因组,包括当前人类参考基因组的一些质量指标。
表1 CHM13组装统计及按照连续性排序的人类参考基因组
初始组装出的X染色体有三个断点,分别是着丝粒区域和两个>100Kb的片段重复(图2b),利用完全跨越重复区域的Ultra-long read手动解决了两个片段重复断点。通过构建着丝粒DXZ1 中~2Kb重复单元标记索引,引导Ultra-long read跨越整个2.8Mb的着丝粒卫星阵列,PFGE Southern blot实验和ddPCR实验结果与预测组装结果相符(图3a,b,c)。进一步验证,发现DXZ1与PacBio HiFi数据结构变异频率高度一致(图3a,d),表明该X染色体的组装具有极高的连续性和结构准确性。
通过构建21-mer短特异序列标记确定长read在X染色体的位置,从而执行精细的Polish程序,以达到最大的碱基精度(图3d,e,f)。
最终,研究者获得了完整、无Gap、估计精度达99.99%的X染色体,解决了29个参考Gap,总长达1,147,861 bp的N碱基。长read和光学图谱比对表明X染色体覆盖均匀无结构错误(图3e)。初始组装质量较低的区域,在精细Polish后也得到了解决(图2c,d)。
图3 X染色体2.8Mb着丝粒区域验证
独特的锚定Ultra-long read提供了一种新的方法来分析重复区域上的甲基化模式,这些重复区域通常很难用短读序列检测到。研究者观察到位于X染色体臂两端的大部分伪常染色体区域(PAR1,2)甲基化水平降低(图4a),在DXZ4阵列区域也发现明显的甲基化条带,这与其独特的空间结构相一致(图4c)。有趣的是在着丝粒DXZ1上发现了一段甲基化水平降低区域(图4b),并且在8号染色体D8Z2上得到了验证。这进一步证明了Ultra-long read比对策略能够提供碱基水平染色体范围的DNA甲基化图谱。
图4 全染色体CpG甲基化分析
该研究在现有技术水平下利用Nanopore ultra-long 测序组装出了第一条完整的端粒到端粒人类染色体,CHM13基因组的其他染色体仅包含一些缺口,可以作为构建完整人类染色体的基础。本研究中最大的亮点是Nanopore ultra-long read的应用,提升基因组组装连续性,跨越上百Kb的片段重复,在重复单元标记引导下跨越2.8Mb的着丝粒区间,以及提供碱基水平染色体范围的DNA甲基化图谱。
[1] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome[J]. nature, 2001, 409(6822): 860.
[2] Jain M, Koren S, Miga K H, et al. Nanopore sequencing and assembly of a human genome with ultra-long reads[J]. Nature Biotechnology, 2018, 36(4).
发表评论
想参加讨论吗?请尽情讨论吧!