随着测序技术的发展,人们能快捷地获得大多数生物基因组的遗传信息。但是,超大型基因组(≥30Gb)的测序和组装仍是世界性难题。一方面,超大型基因组组装所需的数据量往往达到Tb级别,想要快速获得测序数据则必须要求测序平台具有超高通量。另一方面,超大型基因组的物种往往具有大量高重复区域,这些区域犹如基因组“黑洞”,短读长测序技术难以跨越;同时,海量的短片段导致基因组组装也极为复杂,很难得到理想的效果。因此,急需要一种超高通量的测序仪,一种获得超长片段的方法,以及一套节约资源的组装算法,来攻克基因组测序领域最后的堡垒:超大基因组。
武汉未来组在超大型基因组组装领域持续深耕、发力,升级动植物超大型基因组测序组装服务:隆重推出ONT P48平台+Ultra-long技术+自主算法组合策略,从而将超大基因组的组装质量提升到Mb级别!
Nanopore PromethION 48——
三代测序仪中的产能怪兽!
Ultra-long技术——
获得Mb级别的超长读长片段!
未来组自主算法——
超大型基因组专用生信工具!
三方面的优化整合直击超大型基因组测序、组装痛点,是目前技术条件下超大型基因组组装方案的最优解!
2019年5月17日,武汉未来组前瞻性引入全球首台商业化的Nanopore PromethION 48(P48)测序仪,成为纳米孔测序技术服务的先锋!目前所有类型三代测序仪中,P48的产能首屈一指,它具有48个流动槽,每个流动槽有多达3,000个纳米孔通道(总计144,000个),运行96小时可产生4.0-7.6Tb的数据,名副其实的产能怪兽!即使面对超大型基因组深度测序也能轻松实现一周测序一个100×的超大型基因组(基因组大小=30Gb),完全满足超大型基因组测序项目对数据量的需求!牛津纳米孔测序技术有多种文库构建方法,其中Ultra-Long Reads的建库方法read N50长度可达50-100kb,Max_read可达Mb级别。采用Ultra-long Reads进行超大型基因组组装有三大优势:
1)轻松跨越重复区域。超大型基因组中的连续重复区域就像一个个“黑洞”,二代测序小短腿直接掉入深渊,三代测序小心翼翼能够跨过,而Ultra-LongReads能够轻松跨越连续重复区域,提供更多的序列信息,更便于组装过程重复片段划分。
2)显著提升组装质量。在基因组组装过程中可以通过增加读长获得理想组装质量[2],加入Ultra-Long Reads数据可以显著提升人类基因组组装效果,填补基因组中的缺口,甚至覆盖端粒重复区域[3]。有了Ultra-Long Reads,超大型基因组ContigN50上Mb不是梦!
3) 节约组装成本。相同测序深度下采用Ultra-Long的建库测序方法,产生用于组装超大型基因组的read数更少,降低了组装复杂度,减少了计算资源的使用,能够节省一定的组装成本。
未来组Ultra-long下机数据展示
*Yield,Read_Avg,read_N50,Pass_Reads_Avg_Score多个文库取平均值,read_Max取最大值。
组装工具升级——NextDenovo+NextPolish自主算法
NextDenovo(https://github.com/Nextomics/NextDenovo)和NextPolish(https://github.com/Nextomics/NextPolish),是未来组自主研发的专为三代测序长读长设计的高效校正组装和抛光算法。NextDenovo校正速度是其他校正软件的2-8倍,校正后的纳米孔数据一致性约为97-98%,大多数剩余误差位于均聚物或串联重复区域。NextPolish用于抛光三代测序长读长组装的原始contigs,修复由噪声read产生的碱基错误。利用NextDenovo和NextPolish再结合其他基因组组装工具,可将基于ONT数据组装的超大基因组contig N50提升至Mb水平!
超大型基因组升级组装策略
超大基因组升级组装流程
不同物种Ultra-Long组装案例
加入Ultra-long数据后可大幅度提升基因组组装指标。
参考文献:
[1] Ron Milo, Rob Phillips. How Big are Genomes?[B]CELL BIOLOGY BY THE NUMBERS, http://book.bionumbers.org/how-big-are-genomes/.
[2] Henson J, Tischler G, Ning Z. Next-generationsequencing and large genome assemblies[J]. Pharmacogenomics, 2012, 13(8):901-915.
[3] Jain M, Koren S, Miga K H, et al. Nanoporesequencing and assembly of a human genome with ultra-long reads[J]. NatureBiotechnology, 2018, 36(4).