有了OPERA-MS,人体肠道微生物不用愁!

完美的测序技术诞生了吗?
并没有,短读长测序技术天然自带短片段缺陷,长读长测序技术也有原始错误率、通量等不完美的一面。这些都对宏基因组的研究造成了一定的障碍,而来自新加坡基因组所的Denis Bertrand 等人首发了一款混合组装软件,不仅组装碱基准确率高,相较于短读长数据,连续性更提升了一个数量级。

OPERA-MS整合了新的宏基因组聚类技术和精确的scaffolding算法,基于虚拟肠道微生物和自定义群落模拟,研究者仅用9×长读长覆盖深度组装出了几近完整的宏基因组,也组装出高质量的低丰度(<1%)物种基因组。更赞的是,OPERA-MS还可在亚种水平上应用于人体微生物组的动力学。将Nanopore应用于抗生素治疗病人的肠道宏基因组研究发现长读长组装质量较短读长提升了200倍,预印本在线期刊bioRxiv近日发布了这一成果。

方法路径

 结果概述

高质量长读长测序的宏基因组和混合组装

从肠道微生物组CRE(CarbapenemResistant Enterobacteriaceae碳青霉烯类抗生素耐药肠杆菌科细菌)定植的197个样本中提取DNA,28个样本的>5Kb DNA文库在Nanopore上测序获得每个样本8G数据,且平均超过15%的序列>5Kb,适合用于提高宏基因组连续性。同时,Nanopore文库的分类分布和Illumina高度一致。OPERA-MS使用了一种考虑了装配图和覆盖信息以优化聚类BIC的方法,通过现有的工具来精确定位基因组关键算法位点。

OPERA-MS工作流程(见图1)如下:

使用Megahit, metaSPAdes, IDBA-UD等短reads宏基因组组装工具初步组装contigs并覆盖长reads信息构建所有基因组的装配图;

使用无参聚类法在种水平解析基因组并使用有参法增加聚类;
鉴定亚种水平聚类、进行scaffolding并使用OPERA-LG补洞。

图1 OPERA-MS工作流程

重建混合宏基因组数据库近完整、高保真基因组

研究者为已知真实宏基因组的模拟群落组装了测序数据库,包含HMP交错模拟群落,然后评估了三种state-of-the-art宏基因组组装工具MegaHit,metaSPAdes,IDBA-UD,一种长reads组装工具Canu,一种混合组装工具hybridSPAdes以及一种宏基因组混合组装工具OPERA-MS的表现,涵盖了Illumina、PacBio、Nanopore和Illumina合成长reads四种测序方法下的37个组装完整的细菌基因组(见图2)。

图2 本研究中使用的模拟群落特征和数据

简要说来,研究者使用Illumina深度测序可以提升组装,但连续性不行;但是使用长读长数据则很好的解决了这个问题,在覆盖深度>60×时,不仅跨越了重复区域,更获得了近完整的基因组。引人注意的是,Canu和hybridSPAdes需要>30×数据达到的组装质量,使用OPERA-MS仅用~9×的长reads覆盖度就达到了。

相较于短读长方法,OPERA-MS和hybridSPAdes等混合组装方法能得到更高质量的序列,在序列质量和组装连续性上都优于仅用短读长或长读长的reads。

研究还比较分析了OPERA-MS和其他组装软件对于长reads覆盖的效用以及对每个基因组不同深度下组装连续性的相对提升。相对于短读长组装工具,OPERA-MS及metaSPAdes 、IDBA-UD、MegaHit只要在覆盖度>1×就会显著提高连续性,在深度>30×时,甚至还能提高十倍,尤其在深度<5×时,OPERA-MS表现还超过了Canu。最后,研究者还注意到OPERA-MS在每1Mb时产生的错误组装<1,优于错误率最高的hybridSPAdes 2.5倍。总之,OPERA-MS被证实对于各种长reads宏基因组数据库而言都是一款功能完备的软件。

OPERA-MS精确组装复杂群落菌株基因组

模拟群落是评价宏基因组学常用的金标准。为了评估更加复杂群落的组装方法,研究者将模拟群落reads(GIS20)引入到了粪便宏基因组数据中来构建虚拟肠道微生物组。分析发现,即使群落多样性增加,在覆盖深度>5×时,OPERA-MS还是表现出较之短读长组装工具5-10倍的连续性提升,而<5×时则提升50%(见图3)。

图3 使用OPERA-MS和其他组装工具对不同深度数据组装连续性的提升

大家都知道binning(分箱)是将宏基因组数据中同一菌株的序列聚在一起得到一个菌株基因组,即一个bin(箱)。研究使用MaxBin2来分析短reads(MegaHit)和长reads(OPERA-MS)组装分箱的质量。OPERA-MS对基因组完整度中位数提升到95%,而MegaHit则提升到83%,20个中有4个OPERA-MS箱基因组完整度>99%,MegaHit则为0。值得一提的还有,Canu能够利用>100×reads组装出仅含12条contigs的、近93%的基因组,但是有53个重定位错误,相应的,hybridSPAdes也组装出10个重定位错误,而OPERA-MS组装出的是5个。OPERA-MS组装出了一种菌株99%的基因,包含了所有的抗生素耐药性基因且全部可以在一个高质量箱中找到。这些结果都显示OPERA-MS能够用于复杂微生物群落的研究且有能力区分亚种级别的基因组。

文章最后还对人肠道微生物组抗生素抗性和新移动元件进行了分析,由于篇幅关系摘其要点论述。如将OPERA-MS应用于Nanopore和Illumina测序的粪便样本,MegaHit组装基因组contig N50中位数<9Kb,而混合组装提升了超过5倍,使用Nanopore长读长数据组装甚至提升超过了200倍(见图4)。

图4 使用Nanopore测序28个肠道微生物组组装概要

总结
这篇文章首次介绍了一种基于混合数据的宏基因组组装软件OPERA-MS,比较分析了其与其他几种短读长、长读长数据组装软件对宏基因组研究的效能。它能够显著的提升组装的连续性,并且还能够解决亚种级基因组的组装,解决了长读长数据的原始错误率、覆盖度问题和短读长数据的读长缺陷,即使对于低深度覆盖的数据也能有出色的表现。为了验证软件的应用能力,研究者还模拟了人体肠道微生物组的数据,发现其对于临床宏基因组、抗生素耐药性基因的研究上面也能提供较好的帮助。
 

参考文献

Bertrand D,Shaw J, Kalathiappan M, etal.Nanopore sequencing enableshigh-resolution analysis of resistance determinants and mobile elements in thehuman gut microbiome . bioRxivpreprint first posted online October. 30, 2018.

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注