微生物是地球上最丰富、最多样的生命形式,它们是所有生态系统的重要组成部分,在医疗健康领域和工业应用领域中发挥着至关重要的作用。微生物基因组学研究在医学上可应用于致病相关基因的鉴定、开发新型抗生素等,而在生物技术上可用于生物降解、酶工业、食品生物以及抗生物质的研究,同时对进化、功能预测等方面也有着重要意义。
自1994年美国发起微生物基因组研究计划(MGP)以来,微生物组学在生物领域蓬勃发展,而在2001年中国绘制出首张微生物基因组“完成图”以后,随着高通量测序技术的诞生,微生物基因组研究也进入了井喷期,我国先后启动了万种微生物基因组计划、百万微生态系统基因组计划等。
研究的深入依赖技术的进步。短读长测序技术由于无法跨越富含重复区域的基因组使得很多微生物研究止步于基因组草图,而长读长测序技术却可以轻松获取细菌基因组完成图,同时在复杂微生物群落的鉴定中可达到“种级别”的鉴定水平。Frank等人于2016年结合Hiseq2000和PacBio RS II对沼气反应器内微生物宏基因组进行研究发现PacBio技术能显著提升组装水平[1],而2013年Chin等仅运用PacBio就组装出16个微生物基因组,与参考基因组一致性达99.9999%[2]。
如果说PacBio技术为微生物研究打开新世界的大门,那么基于纳米孔电流检测的ONT技术则开启了微生物组学的黄金时代!
全基因组从头组装
案例1:野生型酵母全基因组从头组装[3]
2017年,荷兰研究者Jansen等人分离出了DDNA#1和Saccharomyces cerevisiae S288C两种酵母菌株DNA,使用Illumina和Nanopore MinION测序方式分别进行测序,在获取基因组数据后对DDNA#1使用了三种方式进行组装,ONT的优势不言而喻:①使用Illumina平均~240bp读长的1.08G数据进行组装,组装出14,764条contigs,contig N50仅2.2K;
②使用Illumina和使用canu组装、校正的ONT数据进行混合组装,得到了1904条contigs,contig N50位255K。值得一提的是,这里的ONT数据只包含canu从2.05G原始数据校正后得到的389M。
③使用ONT数据并使用canu以Illumina短reads进行校正,最后组装出仅仅61条contigs,contig N50达到455K。
有意思的是,研究还将两种MinION测序芯片R7.3和R9对DDNA#1线粒体基因组中AT含量富集的一个区段的测序组装结果和Candida vartiovaarae线粒体基因组进行比较,发现升级后的芯片R9表现要好得多(如Fig.1所示)。
Fig.1 两种MinION芯片数据组装的DDNA#1线粒体基因组覆盖情况
最后,研究还将组装的DDNA#1基因组和其他酵母的基因组进行了比较,得出了野生型酵母杂合度较高的结论,并指出ONT数据对于酵母菌株分类的可靠性,而且,使用ONT结合其他测序平台的数据对基因组注释也颇有助益。
群体遗传分析
案例2:酵母基因组从头组装及群体遗传变异研究[4]
法国Genoscope的研究人员同样利MinION对Saccharomyces cerevisiae S288C菌株进行测序来评估ONT组装的有效性,从头组装了代表S. cerevisiae遗传多样性的21个菌株,分析表明ONT数据组装出的基因组连续性比仅用Illumina组装出的高出14倍,且有65%的染色体仅含1—2条contigs。
同时,研究也对S288C菌株也进行了ONT测序,并利用Illumina reads进行校正,22个菌株组装得到的基因组结果如Table 1所示,基因组大小介于11.83Mb到12.2Mb之间。菌株CEI的Contig数最少(18个),平均Contig数为27.5,组装结果都较完整。
Table 1 使用SMARTdenovo组装的22个菌株连续性情况
接着,研究者将组装得到的基因组与已知的酵母TE家族(Ty1-Ty5)进行比对,发现S288C组装注释的50个 TEs有47个都在染色体的正确位点,表明Nanopore策略组装的基因组用于鉴定TE准确性较高。得益于ONT数据可以确定串联基因的拷贝数,研究在组装基因组中搜寻到了CUP1和ENA1-2两个关键的串联重复基因并发现其在21个菌株中极其分化,除此之外还分析了易位和倒位等更大的结构变异。研究者借此也表明,结构变异检测的准确性高度依赖组装的完整性。最后,研究还分析了菌株间线粒体基因组的变异,将它们比对到参考序列上比较分析了检测到的SNPs、插入-缺失、重复区域、基因间区变异等。
特有基因快速检测
案例3:Nanopore检测肠杆菌抗生素耐药性基因[5]
研究从20个污水处理厂收集的样本中鉴定出具有抗生素耐药性的9种肠杆菌科细菌,并检测出其中三种主要的抗生素酶A、B、D,在进行Illumina全基因组测序后与耐药性基因数据库进行比对找到了三种酶对应的抗生素,发现三个对某种抗生素具有高耐药性的菌种都含有blaOXA-48基因。
研究在单独检测Illumina数据时没有组装到blaOXA-48基因,只能定位到其处于三个组装基因组上的三个不同长度的contig上。于是研究人员又进行了Nanopore MinION测序,不仅首次组装出了Enterobacter kobei的基因组完成图,而且另两个菌种的基因组也都是高质量的,借此组装出了三个菌种编码blaOXA-48基因的质粒。
Table 2 基于Illumina和MinION数据对九种菌种基因组的组装统计
跨越重复序列
案例4:ONT挑战长重复序列原核生物基因组组装极限[6]
假单胞菌Pseudomonas koreensis P19E3的基因组含有长达70Kb的重复序列,以及变异的shufflon区域,即便是使用PacBio测序也难以获得满意的组装结果。研究者使用读长更长的Oxford Nanopore测序技术,完成了对Pseudomonas koreensis P19E3的基因组组装,论文发表在Nucleic Acids Research上。
该研究分别采用不同的测序技术对P. koreensis P19E3进行测序,获得的reads结果如Table 3所示,PacBio reads N50为16.9 Kb,而ONT reads N50则高达44.9 Kb。
Table 3 三种测序技术基本数据
利用PacBio数据,HGAP3软件组装得到14条contigs,Flye组装得到7条contigs,都不能得到P. koreensis P19E3的基因组完成图。而利用ONT数据则组装得到一条6.44Mb大小的染色体和4个质粒,将P. koreensis P19E3基因组完整组装出来。同时,制约P. koreensis P19E3基因组完成图的另一主要障碍是高重复的shufflon区域,利用ONT数据和Flye软件也很好的破译了该区域序列。
参考文献
[1] Frank JA, Pan Y, Toomingklunderud A, et al. Improved metagenome assemblies and taxonomic binning using long-read circular consensus sequence data[J]. Scientific Reports, 2016, 6:25373
[2] Chin CS, Alexander DH, Marks P, et al. Nonhybrid, finished microbial genome assemblies from long-read smrt sequencing data[J]. Nature Methods, 2013, 10(6):563-569.
[3] Jansen HJ, Dirks RP, Liem M et al. De novo whole-genome assembly of a wild type yeast isolate using nanopore sequencing, F1000Research 2017, 6:618
[4] Istace B, Friedrich A, D’Agata L, et al. de novo assembly and population genomic survey of natural yeast isolates with the Oxford Nanopore MinION sequencer[J]. Gigascience, 2017, 6(2):1-13.
[5] Ludden C, Reuter S, Judge K, et al. Sharing of carbapenemase-encoding plasmids between Enterobacteriaceae in UK sewage uncovered by MinION sequencing[J]. Microbial Genomics, 2017, 3(7).
[6] Schmid M., et al. Pushing the limits of de novo genome assembly for complex prokaryotic genomes harboring very long, near identical repeats, Nucleic Acids Research, gky726,https://doi.org/10.1093/nar/gky726.