Nature Biotechnology | Trio Binning——突破单倍型基因组组装难题
下面,让组学君带您一起去揭秘这一神奇的技术吧
婆罗门牛和安格斯牛在几千年前分别被驯化,并在此后受到了截然不同的选择压力:婆罗门牛遭受瘟疫和干旱环境的选择,而安格斯牛则被大量用于牛肉生产,这些不同的特性和历史反映在它们的基因组中,使它们成为理想的试验对象。
Fig.1婆罗门牛(左)和安格斯牛(右)
Fig.2 Trio binning单倍型组装示意图
Table1 基因组组装情况
研究者指出,reads分类的准确性不仅与子代的接合性相关,还与测序的读长和准确度相关,因此k-mer大小的选择也很重要(Fig.3)。
Fig.3数据特性对trio binning方法的影响
研究者在拟南芥的杂交系中验证了这一方法。在一项已发表的研究中提供了两个拟南芥株系Arabidopsis thaliana Col-0和Cvi-0的F1子代的Illumina及PacBio测序数据。因为Col-0和Cvi-0都是高度近交系,因此其子代的单倍型被认为与亲本一致,是很好的验证材料。由于亲本没有二代短读长数据,所以研究者直接从组装结果中推断出单倍型特异性的k-mers,杂合度估计为1.360,即每73个碱基有一个变异,代表二倍体组装的最佳情况。验证结果显示,TrioCanu成功地将F1代reads分类,表现为k-mer单峰分布,且组装结果完全解决了亲本的单倍型(Fig.4)。
Fig.4拟南芥F1代的read 及组装k-mer数据特征
随后,研究者在一个欧洲家系中评估了这一方法(父亲:NA12891;母亲:NA12892;女儿:NA12878),并将NA12878的组装结果与Supernova 10x Genomics和FALCON-Unzip(PacBio)方法的组装结果进行比较。经k-mer分析,NA12878的杂合率约为0.1%,这给单倍体分型带来挑战,因为平均1000个碱基才有一个变异位点。基于trio binning的方法克服了这个问题,因为突变可以与其遗传的亲本相关联。
TrioCanu对72 x的PacBio数据进行组装,获得了NG50 为1.2Mb的单倍型,并分别组装出了2.7Gb的两个亲本的单倍体基因组(Table 1)。而从Supernova的41 x linked-read组装的contig NG50为103kb,phase block NG50 4.2 Mb。而基于FALCON-Unzip组装得到了较大的contig NG50,为8.7 Mb,但phase block NG50较短,为0.4 Mb。TrioCanu和Falcon-unzip模拟单倍型NGA50的大小分别为3.0和4.2Mb。TrioCanu生成了完整的单倍型,整个基因组处于同步状态,所有的单倍体都被分配给他们遗传的亲本。
Fig.5二倍体人类基因组单倍型变异
与Supernova相比,TrioCanu的组装结果的结构更准确——Supernova组装遗漏了许多的大的结构变异,且Alu和LINE indel的数量也比TrioCanu要少(Fig.5a)。同时研究者还通过分析在MHC区域(主要组织相容性复合物,是基因组中的高重复高杂合区域)的组装情况来确认其准确性。Supernova没有准确地组装出MHC单倍型,也没有捕捉到HLA-DRB3基因插入到父系单倍型中,并且错误地报告大部分MHCⅡ类区域为纯合子。而TrioCanu正确地组装了这两个MHC单倍型,表现在完美的HLA分型结果且分型基因中仅有一个碱基错误(Fig.5b)。
这些结果表明,trio binning是一种简便、准确、高效的二倍体参考基因组组装方法。该论文的作者之一John L Williams教授说,trio binning技术已经彻底改变了他们以前的技术,他说:“到目前为止,基因组序列都是由遗传差异最小的个体构建的。Trio binning技术标志着技术能力的重大进步,对研究和医学应用具有广泛的意义。” 并指出Trio binning技术将有助于建立更准确的个人基因组变异信息,这将提高基因测试的准确性,并有助于获得个人独特DNA序列,从而在其临床治疗上提供帮助[2]。
参考文献
[1]Koren, S. et al. De novo assembly of haplotype-resolved genomes with trio binning. Nature Biotechnology (2018).
[2]https://sciences.adelaide.edu.au/news/2018/10/23/new-technique-a-breakthrough-in-human-genome-reconstruction
发表评论
想参加讨论吗?请尽情讨论吧!