Nature Biotechnology | Trio Binning——突破单倍型基因组组装难题

美国国家人类基因组研究所、Pacific Biosciences公司及阿德莱德大学等单位的研究人员开发了一种新技术,通过简单的方法即可实现从二倍体中组装出完整的单倍体基因组,这项新技术是基因组组装领域的重大突破,使研究人员能够鉴别从植物到动物等任何类型基因组中的复杂性,并获得比目前更为精确的参考基因组。该研究成果发表在10月22日的Nature Biotechnology杂志上,一经发布便引起广泛关注。
复杂的等位基因变异阻碍了二倍体基因组中单倍型序列的组装,为此研究者开发了trio binning方法,通过在组装前解析等位基因变异来简化单倍型的组装。与以往的方法恰恰相反,该方法的有效性随着杂合度的增加而提高。Trio binning首先使用来自两个亲本基因组的高精度短读长数据将子代的长读长序列划分为单倍型特异性的集合,然后每个单倍型独立组装,形成一个完整的二倍体重建。这一新方法运用了读长更长的PacBio测序技术,首次给出了每条染色体的真正基因组序列,获得迄今为止最高质量的两个牛亚种基因组。

下面,让组学君带您一起去揭秘这一神奇的技术吧

婆罗门牛和安格斯牛在几千年前分别被驯化,并在此后受到了截然不同的选择压力:婆罗门牛遭受瘟疫和干旱环境的选择,而安格斯牛则被大量用于牛肉生产,这些不同的特性和历史反映在它们的基因组中,使它们成为理想的试验对象。

Fig.1婆罗门牛(左)和安格斯牛(右)

材料方法
研究材料Bos taurus taurusBos taurus indicus及二者的F1子代研究方法:1.对两个亲本分别进行适中深度(~60×)的二代Illumina测序;2.对F1代进行三代PacBio测序(~134×);3.根据单倍型特异性k-mers将子代的长读长序列分为父群和母群,并分别组装。

Fig.2 Trio binning单倍型组装示意图

Trio binning方法在杂合度均一的子代中表现最好,这代表任何给定的read都可能包含至少一个单倍型特异的k-mer。每个单核苷酸变异都会引入2k的单倍型特异性K-mers,因此单倍型特异性k-mers的比例要大于单核苷酸杂合度。所以K-mers是一种功能强大的单倍型标记,可以捕获复杂的插入、缺失和融合事件。Table 1展示了Trio binning方法在拟南芥、人类及牛的基因组组装中的表现。

Table1 基因组组装情况

研究者指出,reads分类的准确性不仅与子代的接合性相关,还与测序的读长和准确度相关,因此k-mer大小的选择也很重要(Fig.3)。

Fig.3数据特性对trio binning方法的影响

研究者在拟南芥的杂交系中验证了这一方法。在一项已发表的研究中提供了两个拟南芥株系Arabidopsis thaliana Col-0和Cvi-0的F1子代的Illumina及PacBio测序数据。因为Col-0和Cvi-0都是高度近交系,因此其子代的单倍型被认为与亲本一致,是很好的验证材料。由于亲本没有二代短读长数据,所以研究者直接从组装结果中推断出单倍型特异性的k-mers,杂合度估计为1.360,即每73个碱基有一个变异,代表二倍体组装的最佳情况。验证结果显示,TrioCanu成功地将F1代reads分类,表现为k-mer单峰分布,且组装结果完全解决了亲本的单倍型(Fig.4)。

Fig.4拟南芥F1代的read 及组装k-mer数据特征

随后,研究者在一个欧洲家系中评估了这一方法(父亲:NA12891;母亲:NA12892;女儿:NA12878),并将NA12878的组装结果与Supernova 10x Genomics和FALCON-Unzip(PacBio)方法的组装结果进行比较。经k-mer分析,NA12878的杂合率约为0.1%,这给单倍体分型带来挑战,因为平均1000个碱基才有一个变异位点。基于trio binning的方法克服了这个问题,因为突变可以与其遗传的亲本相关联。

TrioCanu对72 x的PacBio数据进行组装,获得了NG50 为1.2Mb的单倍型,并分别组装出了2.7Gb的两个亲本的单倍体基因组(Table 1)。而从Supernova的41 x linked-read组装的contig NG50为103kb,phase block NG50 4.2 Mb。而基于FALCON-Unzip组装得到了较大的contig NG50,为8.7 Mb,但phase block NG50较短,为0.4 Mb。TrioCanu和Falcon-unzip模拟单倍型NGA50的大小分别为3.0和4.2Mb。TrioCanu生成了完整的单倍型,整个基因组处于同步状态,所有的单倍体都被分配给他们遗传的亲本。

Fig.5二倍体人类基因组单倍型变异

与Supernova相比,TrioCanu的组装结果的结构更准确——Supernova组装遗漏了许多的大的结构变异,且Alu和LINE indel的数量也比TrioCanu要少(Fig.5a)。同时研究者还通过分析在MHC区域(主要组织相容性复合物,是基因组中的高重复高杂合区域)的组装情况来确认其准确性。Supernova没有准确地组装出MHC单倍型,也没有捕捉到HLA-DRB3基因插入到父系单倍型中,并且错误地报告大部分MHCⅡ类区域为纯合子。而TrioCanu正确地组装了这两个MHC单倍型,表现在完美的HLA分型结果且分型基因中仅有一个碱基错误(Fig.5b)。

这些结果表明,trio binning是一种简便、准确、高效的二倍体参考基因组组装方法。该论文的作者之一John L Williams教授说,trio binning技术已经彻底改变了他们以前的技术,他说:“到目前为止,基因组序列都是由遗传差异最小的个体构建的。Trio binning技术标志着技术能力的重大进步,对研究和医学应用具有广泛的意义。” 并指出Trio binning技术将有助于建立更准确的个人基因组变异信息,这将提高基因测试的准确性,并有助于获得个人独特DNA序列,从而在其临床治疗上提供帮助[2]

参考文献

[1]Koren, S. et al. De novo assembly of haplotype-resolved genomes with trio binning. Nature Biotechnology (2018).

[2]https://sciences.adelaide.edu.au/news/2018/10/23/new-technique-a-breakthrough-in-human-genome-reconstruction

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注