ONT + 光学图谱 = 染色体水平的植物基因组

植物基因组的高重复性、多倍化等问题一直是阻碍获得高质量植物基因组的主要原因。而近日发表在Nature Plant上的一篇文章[1]巧妙运用ONT结合光学图谱的方法,获得了染色体级别的两种芸薹属物种和一个裂果蕉的高质量参考基因组,这为植物基因组学研究开辟了一条新的路径。

随着技术的成熟,组装策略也越来越灵活,长读长测序技术对植物基因组连续性的提升十分显著,有图有真相(见图1)。

图1 不同平台测序的105个基因组contigN50比较

从图中可以看到,大部分Illumina组装的基因组连续性欠佳,454测序平台虽然在读长上较其他第二代测序技术有明显的优势,但是和Sanger相比仍然小有距离,和PacBio、ONT相比差距十分明显。今天要为大家分享的就是使用ONT辅以Bionano光学图谱技术将两种双子叶和一种单子叶植物组装到contig N50>5Mb,并组装出包含代表全部染色体或染色体臂的scaffolds。

一起来看看吧!

研究者对白菜型油菜(Brassica rapa Z1)、甘蓝型油菜(Brassica oleracea HDEM)、裂果蕉(Musa schizocarpa)的基因组使用MinION并结合Bionano和Illumina进行从头测序。首先,对三个物种测序了38-79×深度的Nanopore长读长reads(相当于4.4-8.2×深度的reads超过50Kb),组装出的长reads基因组连续性很高:不超过1000条contigs,N50在3.8-7.3Mb之间。加入Bionano光学图谱后,最终组装出的基因组contig N50为5.5-9.5Mb,scaffold N50为15.4-36.8Mb。

同时,研究者还与已经发布的组装数据进行了比较,发现本研究组装的contig N50是之前基因组的100-450倍。在加入遗传图谱数据后,甘蓝型油菜基因组仅有129条scaffolds组成,占九条染色体中的95.3%,最重要的是,相较于已发布数据组装出的446.8Mb基因组,本研究锚定到了528.8Mb,填补了之前研究没有覆盖到的82Mb的区域。

研究者还基于可用数据重建白菜型油菜和裂果蕉基因组,最后,四分之一的染色体组装出了单条scaffold,共66%的染色体组装到一条或两条scaffolds上,代表了单条染色体或染色体臂。例如一个三条scaffold跨越了两端端粒重复序列和一段4Mb的高密度着丝粒重复区域,代表了裂果蕉完整的7号染色体,相较于参考基因组有着质的提升,也喻示着长读长reads真正蕴含解密染色体架构的能力。

表1 基因组组装统计

接下来,研究还使用近缘物种注释信息预测了三种基因组的基因:白菜型油菜、甘蓝型油菜和裂果蕉分别注释了46,721、61,279、32,809个基因(见表1)。原来的短读长组装基因组注释出的转座元件和转座富集区域低于预期,而使用长读长组装结果则检测到了更丰富的长散在重复序列(LINE)、长末端重复反转录转座子(LTR retrotransposon)和DNA转座子家族,总之,使用长读长测序组装鉴定到的转座元件更加完整,尤其是难以锚定到染色体上的转座区域基因插入,三种基因组都锚定到了98%以上(见图2)。

图2 三种ONT组装基因组和对应的参考基因组注释比较

研究者指出:读长是提升转座富集元件区域组装的关键因素,进而决定组装的连续性。由于长DNA片段的测序难度,近来基于PacBio平台的植物基因组组装contig N50不是太高。因此本研究还将这三种基于ONT组装的基因组和红小豆、葡萄、柚子、拟南芥、野草莓、月季的PacBio数据进行了比较,发现ONT数据的长reads(>50Kb)比率确实高一些,而PacBio的覆盖度深一些,也就是说要达到高连续度的基因组,PacBio需要更多长reads(见图3)。

图3 基于PacBio和ONT组装的九个基因组比较

不仅如此,研究还比较了MinION和PromethION两种ONT测序平台对裂果蕉基因组的测序表现。单个PromethION flowcell产出17.6G数据,较MinION的24Kb,PromethION的reads N50为26Kb,但最后组装质量差不多,但是差异在于使用promethION将使用MinION所需花费的US$16,300降到了US$6,500。

为了凸显新组装出的芸薹属基因组重要性,研究还将重测序的119个白菜型油菜和119个甘蓝型油菜序列分别比对到参考基因组和本研究得到的基因组上,分析发现比对到本研究基因组上的序列比例更高,而由于参考基因组重复序列的注释问题导致了映射到本研究基因组上的特异reads比例不高。另外,研究还在基因水平上检测到了高度保守的两种芸薹属油菜之间的差异,分析了和春化、花期相关的FLC。最后,研究者对裂果蕉和小果野蕉的全基因组进行比较,揭示了它们着丝粒区域的高度变异。最引人注意的一点是,小果野蕉基因组更加片段化,着丝粒区域显示了低重组率,很难正确的排序和定向,也再次证实了大型contigs对于定位着丝粒的重要性,相较于传统的遗传图谱,光学图谱的信息丰度显然更有意义。

总结该研究证实了结合ONT MinION/PromethION、Bionano光学图谱和Illumina的测序策略能够获得高质量、低花费的组装结果。本次组装的三种基因组相较于参考基因组,尤其在转座元件富集的区域有了显著的提升,且注释的结果也更加完整。需要指出的是,对于植物基因组而言,高质量的DNA提取仍然尤为重要,同时,Illumina数据对于ONT系统错误的纠正也不可或缺。时至今日,光学图谱或者染色体构象技术对于大型植物基因组而言还是组装到染色体级别的关键,可以预见,随着读长的持续提升,单纯使用长度长测序技术组装到染色体级别基因组的那天终将到来。

参考文献:Belser C,Istace B, Denis E, et al.Chromosome-scaleassemblies of plant genomes using nanopore long reads and optical maps. NaturePlantsvolume 4, pages879–887(2018)

一大波病原体来袭,看Nanopore如何接招!

提起病原体,小伙伴定是心有戚戚。顾名思义,它指的是引起人或动植物感染疾病的微生物,包括细菌、病毒、真菌、立克次氏体、寄生虫等,像鼠疫、霍乱、HIV等都是高致病性病原体造成的,同样,动植物的病原体也非常常见,每年因其造成的经济损失更大到难以估计。

最近Nanopore测序技术接连被应用于牲畜、作物的病原体组学分析、物种鉴定、血清分型、进化研究中,组学君就整理了一下,正好和大家分享ONT对于致病性微生物有哪些用武之地。

//////////
案例一:ONT破译首个猪胸膜肺炎放线杆菌基因组[1]
猪胸膜肺炎放线杆菌(Actinobacillusporcitonsillarum)的存在造成了世界养猪业沉重的经济负担。由于没有获取完整的基因组,缺乏足够的表型标记,其常与小放线杆菌(Actinobacillus minor)混为一谈。这份研究使用了Nanopore测序技术结合Illumina测序技术首次组装出了高质量的猪肺炎放线杆菌9953L55(9953)基因组,然后比较分析了小放线杆菌202(202)和NM305T(305)以及大叶性肺炎放线杆菌S4074T(4074)这几种基因组。
方法攻略
巧克力琼脂+Polyvitex,37℃,5%CO2培养9953、305和4074 PPLO肉汤辅以40 μg/ml NAD用4074和305做对照来评估乳糖、棉子糖和海藻糖发酵
苯酚/氯仿法提取DNA、纯化候打断城8-10Kb并进行Nanopore 1D建库,同时使用MinION和Illumina(双端)测序
ONT reads使用canu进行组装,Illumina reads先map到canu组装的scaffold上然后使用Pilon校正两遍。对9953和4074的环状基因组序列进行注释并对illumina reads进行质粒组装。
从NCBI上下载202等相应的数据并进行比对,然后搜索直系同源基因。使用在线软件描述抗性基因、质粒、插入序列、CRISPER阵列及其相关基因和噬菌体序列。组装出9953基因组圈图并比较305、4074和202基因组,包括平均核苷酸一致性、它们的距离矩阵,并进行了DNA模拟杂交等。

结果概述

对于4074,质控后得到了580,932条ONT 1D reads,而Illumina则产出了10,478,015条双端reads。对ONT reads组装并使用Illumina reads成环、校正后,得到了一条2.32Mb的contig,且和NCBI上下载的PacBio全基因组序列同源性很高,只发现编码限制性内切酶亚基S的两个基因在5’末端区域有重排(见图1)。研究还发现了一段5Kb、包含5个基因的序列高度分化。经比较,使用ONT辅以Illumina得到的所有的基因都十分完整,还与NCBI上下载到的454测序数据完全一致。

图1 ONT/Illumina和PacBio组装的大叶性肺炎放线杆菌基因组对照

4074的结果证实ONT数据从头组装结合Illumina数据polishing是成功的,因此研究又将该方法应用到9953上,经过滤后获得了721,267个1D ONT reads和5,367,150个双端Illumina reads,组装出的环状基因组为2.26Mb,平均GC含量39.7%。正如预期,其与305、202序列相似度极高,而与4074则有较多差异(见图2,由内到外依次为Kb标尺、平均GC含量、GC偏离以及202、305、4074基因组,同源区域着色表示)。

图2 猪肺炎放线杆菌9953环状基因组

9953、305、4074和202四菌株共有1523个直系同源基因簇(COGs),其中1507个都是单拷贝的,说明在成种以前没有发生基因组复制事件。研究还发现较之4074,两种小放线杆菌202和305共享130个额外的COGs,表明两者之间具有更近的亲缘关系。有趣的是,只在9953和4074中发现的大部分COGs都划为了脂多糖(LPS)簇,高度类似于大叶性肺炎放线杆菌血清型1,9和11 LPS簇的基因结构,这也许可以解释其和抗4074血清的交叉反应(指原文简介中提到的猪胸膜肺炎放线杆菌模拟大叶性肺炎放线杆菌主要的抗原因子,在血清测试中造成了交叉反应,可能导致了不必要的猪群抗菌治疗)。

研究证实了9953和202中都存在一个完整的apxIICABD操作子,还对小肺炎杆菌-肺炎放线杆菌复合物和大叶性肺炎放线杆菌发酵乳糖、棉子糖、海藻糖和甘露醇的能力进行了分析,同时比较了四种菌相同相异的转座元件、CRISPR/Cas系统以及整合的噬菌体。平均核苷酸一致性和DNA模拟杂交证实了9953和202同属于一个新的物种,并且与小放线杆菌亲缘关系很近。菌种的准确分类有益于猪胸膜肺炎的诊断和控制。

该研究亮点在于用ONT结合Illumina首次获得了完整、高精度的猪肺炎放线杆菌基因组,并与大叶性肺炎放线杆菌和小放线杆菌基因组进行比较证实了猪肺炎放线杆菌是与小放线杆菌近缘的新种,其对于猪肺炎的诊疗可谓意义重大,同时也说明了ONT平台对于鉴定非常近缘物种的能力。

案例二:ONT助力口蹄疫病毒血清型分型[2]

除了猪胸膜肺炎相关的病原体,还有种口蹄疫病毒(FMDV)也是牲畜业经济损失的重要源头。FMDV属于猪瘟病毒科,主要感染偶蹄动物,有O、A、C、SAT1、SAT2、SAT3(即南非1、2、3型)和Asia1(亚洲1型)7个血清型,各型之间无交叉保护,也就是说感染了其中一型还是可感染另一型,因此快速分型对于病毒控制尤为关键。

传统分型法繁琐耗时,本研究则开发了一套基于Nanopore测序和离线BLAST搜索的新型流程,5小时搞定RNA提取、反转录、双链合成、barcoding及测序分析,一起来看看这个流程吧!

方法攻略
从德国弗里德里希·勒夫勒研究院挑取七种血清型,在恒温37℃封闭系统的BHK-21单层细胞中独立培养直到发生细胞病变
冷冻、解冻后七个样品上清液在4℃下离心、成丸再在离心后重悬,用RNEASY®Mini试剂盒提取RNA
使用一种本地直接cDNA barcoding流程(图3)制备文库
①用Nanopore官方建议的引物进行反转录和链转换②合成双链③末端修复和Barcoding,然后混池

④测序接头连接并进行系绳附着

⑤混入Nanopore缓冲液等进行ONT测序

图3 FMDV分型流程和所需设备

数据处理从FAST5转换为FASTQ格式的文件用ONT的ALBACORE进行barcodes分类,并用GENEIOUS删掉重复reads和少于300碱基、多于9000碱基的序列,然后比对到包含全FMDV基因组或表面P1、P2、P3区域的本地BLAST数据库上。将特异血清型正确比对到数据库上的命中序列数按barcode进行区分,一条FMDV命中序列对应一个GenBank序列号。 

结果概览

最后生成了12193个序列文件,过滤后得到7372个。将reads按barcodes分类后得到的结果如下图,用BLAST搜索方法划分为FMDV的reads从14.3%到32.5%。将reads用BLAST比对到全FMDV基因组上进行分型得到的特异性reads为24.8%,而P2和P3区域分别为23.6%和21.4%。作为对照,使用MEGABLAST将reads比对到P1区域则得到了98.3%的最高特异性,结果见图4。

图4 离线BLASTs搜索的结果

传统的流程主要依赖Sanger或者Illumina测序,成本效益好,也能产生准确通量高的数据,就是两者都不能应用于室外,因为需要复杂的设备和耗时的流程,Illumina测序还需要数据分析的生物信息学背景。而本研究最大的亮点在于将血清型分型从传统实验室解放到了室外。上述实验到分析都是在可移动的箱型实验室完成,能实现快速分型的主要原因是Nanopore方法建库和测序耗时都很短,下游分析也更加易于操作。

原文链接:https://www.hindawi.com/journals/ijg/2018/5261719/abs/https://www.sciencedirect.com/science/article/pii/S0166093418303124?via%3Dihub=

参考文献

[1]Hansen S,Dill V,Shalaby M A, Serotyping of foot-and-mouth disease virus using oxfordnanopore sequencing, Journalof Virological Methods, Volume 263, January2019, Pages 50-53

[2] DonàV, Perreten V,Comparative Genomics of the First and Complete Genome of “Actinobacillusporcitonsillarum” Supports the Novel Species Hypothesis,International Journal of Genomics,Volume2018, Article ID 5261719, 8 pages

有了OPERA-MS,人体肠道微生物不用愁!

完美的测序技术诞生了吗?
并没有,短读长测序技术天然自带短片段缺陷,长读长测序技术也有原始错误率、通量等不完美的一面。这些都对宏基因组的研究造成了一定的障碍,而来自新加坡基因组所的Denis Bertrand 等人首发了一款混合组装软件,不仅组装碱基准确率高,相较于短读长数据,连续性更提升了一个数量级。

OPERA-MS整合了新的宏基因组聚类技术和精确的scaffolding算法,基于虚拟肠道微生物和自定义群落模拟,研究者仅用9×长读长覆盖深度组装出了几近完整的宏基因组,也组装出高质量的低丰度(<1%)物种基因组。更赞的是,OPERA-MS还可在亚种水平上应用于人体微生物组的动力学。将Nanopore应用于抗生素治疗病人的肠道宏基因组研究发现长读长组装质量较短读长提升了200倍,预印本在线期刊bioRxiv近日发布了这一成果。

方法路径

 结果概述

高质量长读长测序的宏基因组和混合组装

从肠道微生物组CRE(CarbapenemResistant Enterobacteriaceae碳青霉烯类抗生素耐药肠杆菌科细菌)定植的197个样本中提取DNA,28个样本的>5Kb DNA文库在Nanopore上测序获得每个样本8G数据,且平均超过15%的序列>5Kb,适合用于提高宏基因组连续性。同时,Nanopore文库的分类分布和Illumina高度一致。OPERA-MS使用了一种考虑了装配图和覆盖信息以优化聚类BIC的方法,通过现有的工具来精确定位基因组关键算法位点。

OPERA-MS工作流程(见图1)如下:

使用Megahit, metaSPAdes, IDBA-UD等短reads宏基因组组装工具初步组装contigs并覆盖长reads信息构建所有基因组的装配图;

使用无参聚类法在种水平解析基因组并使用有参法增加聚类;
鉴定亚种水平聚类、进行scaffolding并使用OPERA-LG补洞。

图1 OPERA-MS工作流程

重建混合宏基因组数据库近完整、高保真基因组

研究者为已知真实宏基因组的模拟群落组装了测序数据库,包含HMP交错模拟群落,然后评估了三种state-of-the-art宏基因组组装工具MegaHit,metaSPAdes,IDBA-UD,一种长reads组装工具Canu,一种混合组装工具hybridSPAdes以及一种宏基因组混合组装工具OPERA-MS的表现,涵盖了Illumina、PacBio、Nanopore和Illumina合成长reads四种测序方法下的37个组装完整的细菌基因组(见图2)。

图2 本研究中使用的模拟群落特征和数据

简要说来,研究者使用Illumina深度测序可以提升组装,但连续性不行;但是使用长读长数据则很好的解决了这个问题,在覆盖深度>60×时,不仅跨越了重复区域,更获得了近完整的基因组。引人注意的是,Canu和hybridSPAdes需要>30×数据达到的组装质量,使用OPERA-MS仅用~9×的长reads覆盖度就达到了。

相较于短读长方法,OPERA-MS和hybridSPAdes等混合组装方法能得到更高质量的序列,在序列质量和组装连续性上都优于仅用短读长或长读长的reads。

研究还比较分析了OPERA-MS和其他组装软件对于长reads覆盖的效用以及对每个基因组不同深度下组装连续性的相对提升。相对于短读长组装工具,OPERA-MS及metaSPAdes 、IDBA-UD、MegaHit只要在覆盖度>1×就会显著提高连续性,在深度>30×时,甚至还能提高十倍,尤其在深度<5×时,OPERA-MS表现还超过了Canu。最后,研究者还注意到OPERA-MS在每1Mb时产生的错误组装<1,优于错误率最高的hybridSPAdes 2.5倍。总之,OPERA-MS被证实对于各种长reads宏基因组数据库而言都是一款功能完备的软件。

OPERA-MS精确组装复杂群落菌株基因组

模拟群落是评价宏基因组学常用的金标准。为了评估更加复杂群落的组装方法,研究者将模拟群落reads(GIS20)引入到了粪便宏基因组数据中来构建虚拟肠道微生物组。分析发现,即使群落多样性增加,在覆盖深度>5×时,OPERA-MS还是表现出较之短读长组装工具5-10倍的连续性提升,而<5×时则提升50%(见图3)。

图3 使用OPERA-MS和其他组装工具对不同深度数据组装连续性的提升

大家都知道binning(分箱)是将宏基因组数据中同一菌株的序列聚在一起得到一个菌株基因组,即一个bin(箱)。研究使用MaxBin2来分析短reads(MegaHit)和长reads(OPERA-MS)组装分箱的质量。OPERA-MS对基因组完整度中位数提升到95%,而MegaHit则提升到83%,20个中有4个OPERA-MS箱基因组完整度>99%,MegaHit则为0。值得一提的还有,Canu能够利用>100×reads组装出仅含12条contigs的、近93%的基因组,但是有53个重定位错误,相应的,hybridSPAdes也组装出10个重定位错误,而OPERA-MS组装出的是5个。OPERA-MS组装出了一种菌株99%的基因,包含了所有的抗生素耐药性基因且全部可以在一个高质量箱中找到。这些结果都显示OPERA-MS能够用于复杂微生物群落的研究且有能力区分亚种级别的基因组。

文章最后还对人肠道微生物组抗生素抗性和新移动元件进行了分析,由于篇幅关系摘其要点论述。如将OPERA-MS应用于Nanopore和Illumina测序的粪便样本,MegaHit组装基因组contig N50中位数<9Kb,而混合组装提升了超过5倍,使用Nanopore长读长数据组装甚至提升超过了200倍(见图4)。

图4 使用Nanopore测序28个肠道微生物组组装概要

总结
这篇文章首次介绍了一种基于混合数据的宏基因组组装软件OPERA-MS,比较分析了其与其他几种短读长、长读长数据组装软件对宏基因组研究的效能。它能够显著的提升组装的连续性,并且还能够解决亚种级基因组的组装,解决了长读长数据的原始错误率、覆盖度问题和短读长数据的读长缺陷,即使对于低深度覆盖的数据也能有出色的表现。为了验证软件的应用能力,研究者还模拟了人体肠道微生物组的数据,发现其对于临床宏基因组、抗生素耐药性基因的研究上面也能提供较好的帮助。
 

参考文献

Bertrand D,Shaw J, Kalathiappan M, etal.Nanopore sequencing enableshigh-resolution analysis of resistance determinants and mobile elements in thehuman gut microbiome . bioRxivpreprint first posted online October. 30, 2018.

刺激2018 | 国内首个ONT植物基因组震撼发布

文章的通讯作者是中药所所长陈士林,他们是全球率先使用Nanopore测序技术完成菊花脑这一高等植物全基因组测序的团队,克服了二代测序技术时代解决不了的高杂合、高重复基因组组装的难题,是本草基因组研究的一个重要里程碑!菊花脑基因组的问世注定将成为ONT在中国组学研究史上浓墨重彩的一笔,再次向世人高调证明了Nanopore测序技术是基因组学研究妥妥的不二之选!
菊属植物种类繁多,又含多种栽培种,兼具观赏和药用价值,且染色体组结构从2n=18到8n=72之间,十分复杂,多年来难以攻破。
中药所所长陈士林研究员、副研究员宋驰博士等利用ONT平台解析了可能代表栽培菊属祖先基因组的二倍体菊花脑基因组,分析表明其演化受重复序列爆发和近期WGD事件的驱动,该基因组复制事件在约38.8个百万年前将菊属和向日葵分化开来;菊花脑观赏及药用性状的变异与包含旁系同源基因组复制事件的基因组家族扩张有关。

赏菊入门之基因组组装

提取菊花脑(Chrysanthemumnankingense )DNA并在ONT平台生成总数据量105.2 Gb,经base calling后99.5Gb的数据被用于后续分析,同时采用二代数据进行序列校正及混合组装,最终获得24,051条contig序列,contigN50为130.7 kb,组装基因组大小2.53 Gb,覆盖了预估基因组的~82%。

赏菊小径之基因注释

研究利用来自不同组织的转录本来验证和构建基因模型,以此来预测菊花脑基因组中蛋白质编码基因的含量。除去非功能注释后,共有56,870个蛋白质编码基因组被发现。在菊科中,菊花脑的基因数量与向日葵(52,232)和加拿大莴苣(44,592)较为类似。对ncRNA基因的注释发现了2,076个tRNA基因、55个rRNA基因、1,504个snRNA基因及579 个microRNA基因。

赏花大道之LTR反转录转座子的重复含量及爆发

研究发现菊花脑中的重复序列含量约为69.6%,LTR为最主要的重复类型,其中LTR/Copia元件占据了基因组的25.4%,LTR/Gypsy元件占21.5%,据估计,菊花脑中Gypsy的爆发时间比Copia而LTR反转座子的爆发时间则与乌拉尔图小麦(Triticum urartu)类似,大约发生在一百万年前。这些数据说明近期LTR元件的插入可能是造成菊属植物基因组扩张的原因之一。

赏菊图鉴之基因组进化及基因家族扩张

为了研究菊花基因家族与不同性状之间的关系,研究者比较了菊花脑与其他14种植物的基因组。利用这些植物的预测蛋白质组,共鉴定出由418,703个基因组成的39,414个同源基因家族,其中包括161,163个核心基因,隶属于15种植物中共有的5,278个基因家族,其中11,372个基因家族共存于4种菊科植物中(Fig.1)。

Fig.1 菊花脑与其他3种菊科植物的共有基因家族分析

研究发现菊花脑中拥有8,009个特异基因,隶属于1,939个基因家族。此外,基因家族进化分析表明,菊花脑中的1,965个基因家族发生了扩张,1,777个基因家族中发生了收缩(Fig.2)。对菊花脑中扩张的基因家族进行功能注释,发现这些基因功能集中在转移酶活性和萜烯合酶活性等方面,表明这些基因可能与次级代谢产物的生产有关。

Fig.2 15种植物的基因家族扩张与收缩情况

研究者进一步分析了菊花进化过程中的WGD事件,使用重复基因的Ks值计算复制事件的发生时间,并在~0.1处发现了一个峰,表明最近的WGD事件发生在大约580万年前(Fig.3)。

Fig.3 菊花脑与其他三种植物的同义代换率(Ks)的分布密度

赏菊攻略之关键基因一瞥

研究者还绘制出与重要生物学特征基础通路相关基因的完整编目并分析了和黄酮类化合物,注释了参与黄酮类化合物合成的基因,分析 了萜类生物合成相关基因的多样化。研究鉴定出了类萜合成酶(TS)基因和多个细胞色素P450依赖的加氧酶(CYP)基因,令人惊讶的是,除了那些已经在其他已测序的真双子叶植物中鉴定出的TS/CYP组合之外,研究者还在菊花中发现了新的组合,如TPS-a/CYP99和TPS-g/CYP79/CYP76等。

参考文献:Song, C. et al. The Chrysanthemum nankingense genome provides insights into the evolution and diversification of chrysanthemum flowers and medicinal traits. Molecular Plant (2018).

Nature Biotechnology | Trio Binning——突破单倍型基因组组装难题

美国国家人类基因组研究所、Pacific Biosciences公司及阿德莱德大学等单位的研究人员开发了一种新技术,通过简单的方法即可实现从二倍体中组装出完整的单倍体基因组,这项新技术是基因组组装领域的重大突破,使研究人员能够鉴别从植物到动物等任何类型基因组中的复杂性,并获得比目前更为精确的参考基因组。该研究成果发表在10月22日的Nature Biotechnology杂志上,一经发布便引起广泛关注。
复杂的等位基因变异阻碍了二倍体基因组中单倍型序列的组装,为此研究者开发了trio binning方法,通过在组装前解析等位基因变异来简化单倍型的组装。与以往的方法恰恰相反,该方法的有效性随着杂合度的增加而提高。Trio binning首先使用来自两个亲本基因组的高精度短读长数据将子代的长读长序列划分为单倍型特异性的集合,然后每个单倍型独立组装,形成一个完整的二倍体重建。这一新方法运用了读长更长的PacBio测序技术,首次给出了每条染色体的真正基因组序列,获得迄今为止最高质量的两个牛亚种基因组。

下面,让组学君带您一起去揭秘这一神奇的技术吧

婆罗门牛和安格斯牛在几千年前分别被驯化,并在此后受到了截然不同的选择压力:婆罗门牛遭受瘟疫和干旱环境的选择,而安格斯牛则被大量用于牛肉生产,这些不同的特性和历史反映在它们的基因组中,使它们成为理想的试验对象。

Fig.1婆罗门牛(左)和安格斯牛(右)

材料方法
研究材料Bos taurus taurusBos taurus indicus及二者的F1子代研究方法:1.对两个亲本分别进行适中深度(~60×)的二代Illumina测序;2.对F1代进行三代PacBio测序(~134×);3.根据单倍型特异性k-mers将子代的长读长序列分为父群和母群,并分别组装。

Fig.2 Trio binning单倍型组装示意图

Trio binning方法在杂合度均一的子代中表现最好,这代表任何给定的read都可能包含至少一个单倍型特异的k-mer。每个单核苷酸变异都会引入2k的单倍型特异性K-mers,因此单倍型特异性k-mers的比例要大于单核苷酸杂合度。所以K-mers是一种功能强大的单倍型标记,可以捕获复杂的插入、缺失和融合事件。Table 1展示了Trio binning方法在拟南芥、人类及牛的基因组组装中的表现。

Table1 基因组组装情况

研究者指出,reads分类的准确性不仅与子代的接合性相关,还与测序的读长和准确度相关,因此k-mer大小的选择也很重要(Fig.3)。

Fig.3数据特性对trio binning方法的影响

研究者在拟南芥的杂交系中验证了这一方法。在一项已发表的研究中提供了两个拟南芥株系Arabidopsis thaliana Col-0和Cvi-0的F1子代的Illumina及PacBio测序数据。因为Col-0和Cvi-0都是高度近交系,因此其子代的单倍型被认为与亲本一致,是很好的验证材料。由于亲本没有二代短读长数据,所以研究者直接从组装结果中推断出单倍型特异性的k-mers,杂合度估计为1.360,即每73个碱基有一个变异,代表二倍体组装的最佳情况。验证结果显示,TrioCanu成功地将F1代reads分类,表现为k-mer单峰分布,且组装结果完全解决了亲本的单倍型(Fig.4)。

Fig.4拟南芥F1代的read 及组装k-mer数据特征

随后,研究者在一个欧洲家系中评估了这一方法(父亲:NA12891;母亲:NA12892;女儿:NA12878),并将NA12878的组装结果与Supernova 10x Genomics和FALCON-Unzip(PacBio)方法的组装结果进行比较。经k-mer分析,NA12878的杂合率约为0.1%,这给单倍体分型带来挑战,因为平均1000个碱基才有一个变异位点。基于trio binning的方法克服了这个问题,因为突变可以与其遗传的亲本相关联。

TrioCanu对72 x的PacBio数据进行组装,获得了NG50 为1.2Mb的单倍型,并分别组装出了2.7Gb的两个亲本的单倍体基因组(Table 1)。而从Supernova的41 x linked-read组装的contig NG50为103kb,phase block NG50 4.2 Mb。而基于FALCON-Unzip组装得到了较大的contig NG50,为8.7 Mb,但phase block NG50较短,为0.4 Mb。TrioCanu和Falcon-unzip模拟单倍型NGA50的大小分别为3.0和4.2Mb。TrioCanu生成了完整的单倍型,整个基因组处于同步状态,所有的单倍体都被分配给他们遗传的亲本。

Fig.5二倍体人类基因组单倍型变异

与Supernova相比,TrioCanu的组装结果的结构更准确——Supernova组装遗漏了许多的大的结构变异,且Alu和LINE indel的数量也比TrioCanu要少(Fig.5a)。同时研究者还通过分析在MHC区域(主要组织相容性复合物,是基因组中的高重复高杂合区域)的组装情况来确认其准确性。Supernova没有准确地组装出MHC单倍型,也没有捕捉到HLA-DRB3基因插入到父系单倍型中,并且错误地报告大部分MHCⅡ类区域为纯合子。而TrioCanu正确地组装了这两个MHC单倍型,表现在完美的HLA分型结果且分型基因中仅有一个碱基错误(Fig.5b)。

这些结果表明,trio binning是一种简便、准确、高效的二倍体参考基因组组装方法。该论文的作者之一John L Williams教授说,trio binning技术已经彻底改变了他们以前的技术,他说:“到目前为止,基因组序列都是由遗传差异最小的个体构建的。Trio binning技术标志着技术能力的重大进步,对研究和医学应用具有广泛的意义。” 并指出Trio binning技术将有助于建立更准确的个人基因组变异信息,这将提高基因测试的准确性,并有助于获得个人独特DNA序列,从而在其临床治疗上提供帮助[2]

参考文献

[1]Koren, S. et al. De novo assembly of haplotype-resolved genomes with trio binning. Nature Biotechnology (2018).

[2]https://sciences.adelaide.edu.au/news/2018/10/23/new-technique-a-breakthrough-in-human-genome-reconstruction

命中注定|当16S/18S/ITS扩增子邂逅PacBio

核糖体RNA(rRNA)是核糖体的结构和功能核心,是蛋白质生物合成的“装配机”。根据分子量的大小,rRNA被分为好几种,以离心沉降系数S来区分。在原核微生物核糖体中的16S rRNA基因长度约为1500 bp,因其结构与功能上的高度保守性,常用于菌种鉴定和系统发育分析。与16S rRNA类似,真核微生物18S rRNA基因长度1500-2000 bp,常用于研究环境样本中真核微生物群落结构多样性,其中,真菌rRNA基因的非转录区还包含一段隐秘的内转录间隔区(Internal Transcribed Spacer,ITS),长度为400-900bp,由于种内保守,种间差异明显,也非常适于种类鉴定和群落分析。

在以往的研究中,16S/18S/ITS等基因扩增子测序一般都基于第二代高通量测序平台。二代测序读长较短,通常仅可以覆盖16S V4区、18S V9区,而微生物基因突变位点即便是在同种微生物中也不是均匀分布的,因此基于单个可变区的测序分析有可能会高估或低估这些突变,进而影响微生物群落的分类,因此二代扩增子往往无法反映微生物群落的真实情况。

PacBio测序可以获得平均12-15Kb的长读长,在CCS测序模式下可实现对扩增子的多圈读取,在获得全长扩增子序列的同时保证了序列的准确性,能够更真实地反映微生物群落的组成情况。

Fig.1 16S rRNA保守区(绿色)、高变区(蓝色)与突变位点(红色)图示[1]

PacBio公司在2018年3月7日正式公开发布V5.1版本PacBioSequel软件和v2.1版本Polymerase试剂,Sequel平台测序通量和读长均得到很大提升,下机数据Polymerase reads平均读长15Kb,最长可达100Kb以上。

在长读长、高通量优势的加持下,Sequel可轻松读取多圈全长扩增子,获得的CCS序列更是可以达到无限接近于1的准确度!种级别(Species Level)的精确注释不在话下,同时还保证了OTU序列的准确度,使得alpha和beta多样性、统计检验等结果更加准确!

基于PacBio CCS测序模式的全长扩增子测序流程

未来组目前基于v2.1版本酶试剂进行全长扩增子测序,单个cell最长读长达到134Kb,平均读长28Kb,单个cell产出超过20Gb,可以说青出于蓝胜于蓝,完全没有辜负PacBio平台的潜力呀!

Fig.2 未来组1 SMRT cell reads读长分布示例

Fig.3 Clean CCS序列准确度分布图

Fig.4 种水平聚类热度图

Fig.5种水平精准物种注释堆砌柱状图

Fig.6 基于Weighted Unifrac距离的UPGMA聚类树

参考文献:

[1] Singer E, Bushnell B, Coleman-Derr D, et al.High-resolution phylogenetic microbial community profiling[J]. Isme Journal,2016.

想知道宏基因组研究怎样下手?进来看看吧!

随着组学研究进入大数据时代,宏基因组学也逐渐获得研究者们的青睐。宏基因组(Metagenome)是由Handelsman等于1998提出来的,定义为环境中全部微生物遗传物质的总和,一般研究方法是从环境样品种提取基因组DNA进行测序分析或克隆DNA到合适的载体再导入宿主菌体,筛选目的转化子等,其在微生态学、海洋微生物资源开发、环境保护和污染修复、医学领域、生物酶制剂开发上都有着广泛的用途。

由于微生物多样性高,宏基因组较为复杂,所构建的文库多为DNA文库,cDNA文库较少,因此目前已发表的文库很少能够覆盖整个宏基因组,这个时候就该我们的Nanopore出场了。ONT平台因为数据通量高、读长超长,而长读长才能真实地反映菌群的组成,为后续的分析打下坚实的基础!

可是,宏基因组研究究竟有哪些方法策略?长度长测序技术真的那么靠谱吗?下面就让组学君选取2018年发表的文章为您揭开长读长测序技术研究宏基因组的面纱!

案例一. Nanopore助力猪嵴病毒的检测

方法策略:

提取猪轮状病毒A(RVA)和猪流行性腹泻病毒(PEDV,CV777)的RNA并反转录成cDNA、合成第二链后制备文库进行Nanopore测序并分析;对哺乳期腹泻仔猪排泄物样本中分离出病毒并进行Nanopore测序和Sanger法测序并用RT-qPCR 定量,然后对分离出的猪嵴病毒和猪轮状病毒进行追踪调查,最后对腹泻哺乳期仔猪中的猪嵴病毒传播进行回顾性流行病学和系统发育分析。

结果:

①两种病毒共获得243,313条reads,去除低质量reads后保留179,015条。在和PEDV和RVA参考基因组进行比对后,分类和mapping结果如图Fig. 1。使用组装后与参考基因组比对以及先比对后组装两种方式得到的统计结果见下表Table 1,覆盖度在95%-99%。

Fig.1 Reads鉴定结果

Table1. 不同基因组和基因片段组装方法比较

②使用ONT对腹泻乳猪粪便中提取的病毒样本进行ONT测序,得到30,088条reads并保留25,466条,然后与病毒数据库进行比对,主要的序列属于噬菌体;且找到了丰度极低的猪嵴病毒、肠病毒和星状病毒。

Fig. 2 一份乳猪腹泻排泄物样本的Nanopore数据比对到病毒数据库上的结果

③对从同一个农场的5只哺乳期小猪排泄物中分离出的猪嵴病毒、猪轮状病毒A和猪轮状病毒C进行定量分析,并调查了其对这三种病毒的脱离模式,结果见Fig. 3。

Fig. 3 五只哺乳期小猪病毒脱离模式

④使用RT-qPCR方法从收集到的44份腹泻样本中分离出猪嵴病毒并分析了其在不同样本中的感染情况。

小结:

研究证实,Nanopore非常适用于肠道病毒的快速检测,使用长读长能够全面的解析宏基因组种的病毒和其他病原体,为牲畜诊断提供简单直观的读取结果,而不需要兽医进行各种不同的诊断分析。

案例二. Nanopore测序鼠胃宏基因组以量化饮食

方法策略:

诱捕三种类型栖息地的34只野生雄性黑鼠并从胃内物中提取DNA,每个栖息地各得到8个高质量的DNA样本,打上barcode标签后分两次每次12个样本混合于Nanopore上测序。获得的DNA序列在NCBI数据库上进行比对,接着使用MEGAN6设置e-value阈值对测序reads进行分类,最后使用PRIMER分别对单个样本进行多变量分析,去除细菌、啮齿目(黑鼠自身DNA)以及灵长目(样本污染)家族的数据。

统计每一个黑鼠reads数的比例后计算Bray-Curtis 差异矩阵,该方法可以基于谱系间reads数比率的平方根量化成对黑鼠肠道DNA的差异;对于差异矩阵又使用非度量多维尺度法(nMDS)来检验黑鼠饮食成分,最后为了评估三个栖息地黑鼠饮食组成可辩别的程度,又对差异矩阵进行主坐标标准分析(CAP),并用SIMPER来描述、区分不同的栖息地。

结果

①总共获得82,977条reads,由于消化过程中胃的降解作用等原因,reads读长较其他Nanopore测序要短,但所有样本中的数据量和读长均相近。对于标记了barcode的133,022条reads,其中23%鉴定为外源数据被去除,质控后得到高质量的22,154条reads。在使用Magan进行分类后又剔除了24%无法分类的reads以及28%归为细菌、宿主和污染的reads,最后对保留下来的reads分别进行属级、科级的分类(Fig. 4);

Fig. 4 黑鼠个体胃内物种物种的分类计数

②最终鉴定出8门、15纲、55目和68科的物种,从每一黑鼠个体中鉴定出2-25个目,其中,植物是最主要的食物来源,含禾本木、豆木、槟榔目和南洋杉目,动物则占比较小,但也发现了膜翅目、鞘翅目、鳞翅目、蜚蠊目、双翅目还有竹节虫目等;真菌也占比极小,发现了酵母目、毛霉菌目以及红菇目等(见Fig. 5)。

Fig. 5 黑鼠食性物种归为科水平和目水平的reads比率

③科水平的nMDS分析表明栖息地和黑鼠食性的差异没有必然的关联,反而主要是由于棕榈科、罗汉松科、胡椒科和松科的分布对食性差异起主要作用,其次就是昆虫和鸟类的分布。

小结

这份研究展示了长读长宏基因组研究方法能够准确的描述食性并进行科水平的分类,还可以根据不同的栖息地辨别鼠的饮食情况,对于受到外来捕食物种威胁的本地物种的保护有着非常积极的引导作用。

案例三. 使用Nanopore和Illumina解析临床样本中基孔肯亚热和登革热病毒全基因组

方法策略:

从基孔肯亚热(CHIKV)或登革热病毒(DENV)阳性的26个常规诊断样本、9个血浆和17个血清样本中提取RNA,病毒验证后量化;反转录成cDNA后合成第二链构建宏基因组文库;分别进行Nanopore和Illumina测序。使用BWA MEM将得到的reads比对到5个参考基因组上,使用Samtools计算mapped reads比率和覆盖深度,并生成一致性序列;使用kraken和本地生成的细菌、病毒、古菌基因组数据库进行阶元分类;最后分别进行从头组装。

结果:

①基于qRT-PCR的分析得到CHIKV样本Ct值(每个反应管中荧光信号达到设定的阈值时所经历的循环数,起始拷贝越多,Ct值越小)为14.72-32.57,DENV为16.29-31.29。将Illumina数据map到参考基因组上匹配度均较高,且从两种病毒中各选择四个样本的Illumina数据来评估Nanopore数据的表现,结果见下表:

Table 2. 样本和Nanopore测序统计

②将CHIKV和DENV的Nanopore数据也比对到参考基因组上时比照发现高度匹配的比例从85.12%和72.14%,而同样的样本Illumina数据匹配度时95.23%和92.56%,虽然Nanopore数据匹配度略低,但是在较低的病毒滴度(衡量病毒的毒力)时覆盖深度却高于Illumina。同时两者的一致性序列匹配度在99.5%到99.9%之间。

Fig. 6 Kraken对两种平台下的CHIKV样本的reads分类

Fig. 7 Kraken对两种平台下的DENV样本的reads分类

③此外研究还针对两种数据进行了宏基因组数据分析和协同感染分析,使用Kraken对两种平台下的CHIKV和DENV样本的reads进行分类(见Fig. 6和Fig.7)并进行了从头组装,CHIKV的contig长度在4.2K到10.8K,而DENV则在4.7K到10.1K。为了评估Nanopore的效率,研究还比较了快速建库方式和1D2两种建库方式下的测序速度,发现1D2文库在8分钟的时候就达到了最高的reads覆盖深度,而快速文库则用了85分钟。

小结

该研究表明了长读长测序技术对宏基因组测序的可行性,对于RNA病毒的准确检测使得该方法可用于公共健康的维护,而其快速性则对疾病的有效控制有着不寻常的意义。

ONT开启微生物组学的黄金时代

微生物是地球上最丰富、最多样的生命形式,它们是所有生态系统的重要组成部分,在医疗健康领域和工业应用领域中发挥着至关重要的作用。微生物基因组学研究在医学上可应用于致病相关基因的鉴定、开发新型抗生素等,而在生物技术上可用于生物降解、酶工业、食品生物以及抗生物质的研究,同时对进化、功能预测等方面也有着重要意义。

自1994年美国发起微生物基因组研究计划(MGP)以来,微生物组学在生物领域蓬勃发展,而在2001年中国绘制出首张微生物基因组“完成图”以后,随着高通量测序技术的诞生,微生物基因组研究也进入了井喷期,我国先后启动了万种微生物基因组计划、百万微生态系统基因组计划等。

研究的深入依赖技术的进步。短读长测序技术由于无法跨越富含重复区域的基因组使得很多微生物研究止步于基因组草图,而长读长测序技术却可以轻松获取细菌基因组完成图,同时在复杂微生物群落的鉴定中可达到“种级别”的鉴定水平。Frank等人于2016年结合Hiseq2000和PacBio RS II对沼气反应器内微生物宏基因组进行研究发现PacBio技术能显著提升组装水平[1],而2013年Chin等仅运用PacBio就组装出16个微生物基因组,与参考基因组一致性达99.9999%[2]。

如果说PacBio技术为微生物研究打开新世界的大门,那么基于纳米孔电流检测的ONT技术则开启了微生物组学的黄金时代!

全基因组从头组装

案例1:野生型酵母全基因组从头组装[3]

2017年,荷兰研究者Jansen等人分离出了DDNA#1和Saccharomyces cerevisiae S288C两种酵母菌株DNA,使用Illumina和Nanopore MinION测序方式分别进行测序,在获取基因组数据后对DDNA#1使用了三种方式进行组装,ONT的优势不言而喻:

①使用Illumina平均~240bp读长的1.08G数据进行组装,组装出14,764条contigs,contig N50仅2.2K;

②使用Illumina和使用canu组装、校正的ONT数据进行混合组装,得到了1904条contigs,contig N50位255K。值得一提的是,这里的ONT数据只包含canu从2.05G原始数据校正后得到的389M。

③使用ONT数据并使用canu以Illumina短reads进行校正,最后组装出仅仅61条contigs,contig N50达到455K。

有意思的是,研究还将两种MinION测序芯片R7.3和R9对DDNA#1线粒体基因组中AT含量富集的一个区段的测序组装结果和Candida vartiovaarae线粒体基因组进行比较,发现升级后的芯片R9表现要好得多(如Fig.1所示)。

Fig.1 两种MinION芯片数据组装的DDNA#1线粒体基因组覆盖情况

最后,研究还将组装的DDNA#1基因组和其他酵母的基因组进行了比较,得出了野生型酵母杂合度较高的结论,并指出ONT数据对于酵母菌株分类的可靠性,而且,使用ONT结合其他测序平台的数据对基因组注释也颇有助益。

群体遗传分析

案例2:酵母基因组从头组装及群体遗传变异研究[4]

法国Genoscope的研究人员同样利MinION对Saccharomyces cerevisiae S288C菌株进行测序来评估ONT组装的有效性,从头组装了代表S. cerevisiae遗传多样性的21个菌株,分析表明ONT数据组装出的基因组连续性比仅用Illumina组装出的高出14倍,且有65%的染色体仅含1—2条contigs。

同时,研究也对S288C菌株也进行了ONT测序,并利用Illumina reads进行校正,22个菌株组装得到的基因组结果如Table 1所示,基因组大小介于11.83Mb到12.2Mb之间。菌株CEI的Contig数最少(18个),平均Contig数为27.5,组装结果都较完整。

Table 1 使用SMARTdenovo组装的22个菌株连续性情况

接着,研究者将组装得到的基因组与已知的酵母TE家族(Ty1-Ty5)进行比对,发现S288C组装注释的50个 TEs有47个都在染色体的正确位点,表明Nanopore策略组装的基因组用于鉴定TE准确性较高。得益于ONT数据可以确定串联基因的拷贝数,研究在组装基因组中搜寻到了CUP1和ENA1-2两个关键的串联重复基因并发现其在21个菌株中极其分化,除此之外还分析了易位和倒位等更大的结构变异。研究者借此也表明,结构变异检测的准确性高度依赖组装的完整性。最后,研究还分析了菌株间线粒体基因组的变异,将它们比对到参考序列上比较分析了检测到的SNPs、插入-缺失、重复区域、基因间区变异等。

特有基因快速检测

案例3:Nanopore检测肠杆菌抗生素耐药性基因[5]

研究从20个污水处理厂收集的样本中鉴定出具有抗生素耐药性的9种肠杆菌科细菌,并检测出其中三种主要的抗生素酶A、B、D,在进行Illumina全基因组测序后与耐药性基因数据库进行比对找到了三种酶对应的抗生素,发现三个对某种抗生素具有高耐药性的菌种都含有blaOXA-48基因。

研究在单独检测Illumina数据时没有组装到blaOXA-48基因,只能定位到其处于三个组装基因组上的三个不同长度的contig上。于是研究人员又进行了Nanopore MinION测序,不仅首次组装出了Enterobacter kobei的基因组完成图,而且另两个菌种的基因组也都是高质量的,借此组装出了三个菌种编码blaOXA-48基因的质粒。

Table 2 基于Illumina和MinION数据对九种菌种基因组的组装统计

跨越重复序列

案例4:ONT挑战长重复序列原核生物基因组组装极限[6]

假单胞菌Pseudomonas koreensis P19E3的基因组含有长达70Kb的重复序列,以及变异的shufflon区域,即便是使用PacBio测序也难以获得满意的组装结果。研究者使用读长更长的Oxford Nanopore测序技术,完成了对Pseudomonas koreensis P19E3的基因组组装,论文发表在Nucleic Acids Research上。

该研究分别采用不同的测序技术对P. koreensis P19E3进行测序,获得的reads结果如Table 3所示,PacBio reads N50为16.9 Kb,而ONT reads N50则高达44.9 Kb。

Table 3 三种测序技术基本数据

利用PacBio数据,HGAP3软件组装得到14条contigs,Flye组装得到7条contigs,都不能得到P. koreensis P19E3的基因组完成图。而利用ONT数据则组装得到一条6.44Mb大小的染色体和4个质粒,将P. koreensis P19E3基因组完整组装出来。同时,制约P. koreensis P19E3基因组完成图的另一主要障碍是高重复的shufflon区域,利用ONT数据和Flye软件也很好的破译了该区域序列。

参考文献

[1] Frank JA, Pan Y, Toomingklunderud A, et al. Improved metagenome assemblies and taxonomic binning using long-read circular consensus sequence data[J]. Scientific Reports, 2016, 6:25373

[2] Chin CS, Alexander DH, Marks P, et al. Nonhybrid, finished microbial genome assemblies from long-read smrt sequencing data[J]. Nature Methods, 2013, 10(6):563-569.

[3] Jansen HJ, Dirks RP, Liem M et al. De novo whole-genome assembly of a wild type yeast isolate using nanopore sequencing, F1000Research 2017, 6:618 

[4] Istace B, Friedrich A, D’Agata L, et al. de novo assembly and population genomic survey of natural yeast isolates with the Oxford Nanopore MinION sequencer[J]. Gigascience, 2017, 6(2):1-13.

[5] Ludden C, Reuter S, Judge K, et al. Sharing of carbapenemase-encoding plasmids between Enterobacteriaceae in UK sewage uncovered by MinION sequencing[J]. Microbial Genomics, 2017, 3(7).

[6] Schmid M., et al. Pushing the limits of de novo genome assembly for complex prokaryotic genomes harboring very long, near identical repeats, Nucleic Acids Research, gky726,https://doi.org/10.1093/nar/gky726.

SVs识别哪家强?PromethION为您揭晓

继PacBio首次确认一种疾病大片段缺失突变【1】引起广泛关注后,人类基因组结构变异联盟又分别用Illumina、PacBio以及Bionano对人类基因组结构变异(SVs)进行分析【2】,而未来组兄弟公司希望组则瞄准ONT平台的潜力,通过GridION在一例全外显子组检测阴性患者中准确的鉴定出基因组结构变异,为胚胎植入前遗传学诊断提供重要参考【3】。近日,预印本在线期刊bioRxiv也发布了一篇比利时安特卫普大学De CosterWouter等人的研究成果,详细地比较了ONT平台的MInION和Prometh ION在检测人类基因组结构变异上的实力【4】。

本研究通过对两种平台数据SVs的高灵敏性识别以及对最优参数的比较,发现比对软件Minimap2 和SVs识别软件Sniffles是最精确也最有效率的工具,同时研究还给出了从个体或群体的长读长基因组中鉴定、注释并描述数以万计SVs的流程(https://github.com/wdecoster/nano-snakemake/),最后还对长读长测序研究鉴定SVs的未来做了展望。

为什么用长读长测序技术检测SVs?

SVs包含拷贝数变异(CNVs、缺失和复制)、插入、倒位、易位、移动元件插入、重复序列扩张甚至上述情况的组合。目前,使用短读长测序技术对大部分SVs的识别都不太理想,主要因为有些插入变异长度超过了测序技术的读长,有些是富含GC区域,对本身有测序偏好的技术产生困难。有研究人员评估基于短读长技术的变异检出算法错过了约77%的插入,而PacBio在检测结构变异上的灵敏度是Illumina的三倍【2】。ONT平台的MinION有512个通道,最新产能达到30G,用于人类基因组的测序需要多个MinION并行且耗资不菲,而拥有多达3000个通道、12000个纳米孔的PromethION则完美的解决了这个问题。

本研究使用了5个PromethION flowcells覆盖了人Yoruba NA19240深度为59×的基因组,最长read为177Kb,MinION测得的最长read为219Kb(见Table 1)。因为文库打断为20Kb的片段后产量会更高,因此结果反映出了产量和读长的反比关系。

MinION VS PromethION

MinION和PromethION两个平台产出数据的读长近似,但是在和参考基因组GRCh38比对后发现MinION产出数据的平均质量分数和一致性要略高一些(见Figure 1)。

比对工具比较

接着,研究又比较了ngmlr、LAST以及两种参数设置下的minimap2这三个比对软件,LAST产生了很多分离的比对序列导致比对上的reads较短,而minimap2运行速度最快,LAST最耗时,另外,一致性比例和比对覆盖度中值较为一致(见Table 2和Figure 2)。

SVs识别

研究又使用Sniffles和NanoSV分别对SVs进行calling,并在识别插入时还使用了nplnv,三种工具分别在上述四种比对软件的结果下运行,最后发现Sniffles是目前评估SVs最快速的工具(见Table 3)。

研究者还对上述比对和SVs识别工具进行组合以评估、识别鉴定出来的SVs,结果显示在使用minimap2比对后Sniffles软件表现出更高的精确性。同时,研究还评估了Sniffles、NanoSV以及nplnv识别的倒位,nplnv得到的结果最佳。另外,研究评估了SVs的长度以及准确度并且描述了鉴定到的变异。

最后,在鉴定到SVs后,研究者还注释了重叠基因、重复片段等信息,研究表明重叠基因与判别这些变异的致病性相关,非编码区的SVs的影响目前还不明确,而位于重复片段上的SVs注释则扮演着双重角色,一方面它们是SVs形成的热点区域,另一方面对于比对造成重重困难,显著的增加了变异识别的假阳性。

该研究最后展望了长读长测序检测基因组SVs的前景。SVs让人类基因组呈现更高的多样性,越来越多的研究表示以前的人类基因组数据低估了SVs的数量及其在健康、疾病中的作用,少数较大的变异会导致许多遗传病疾,据悉,非编码区的结构变异也是潜在驱动突变的因素【5】。

由于大小所限,SVs并不能像单核苷酸变异(SNV)那样通过短读长技术来研究,而低深度的长读长覆盖就能够挖掘有用的结构变异信息【1】。为区分出那些致病的SVs,研究者们还需要从多个群体着手对SVs进行综合性分类,研究人员在这一领域还大有可为。相信,以PacBio和ONT为代表的长读长测序技术将在SVs的研究上发挥不可或缺的重要作用,尤其是PromethION,其超长读长和超高产能的特性都已经让其成为众多组学领域的首选。

参考文献

【1】Merker J D, Wenger A M, Sneddon T, et al. Long-read genomesequencing identifies causal structural variation in a Mendelian disease.[J].Genetics in Medicine Official Journal of the American College of MedicalGenetics, 2017, 20(1).

【2】Chaisson M JP,Sanders A D, Zhao X,et al. Multi-platform discovery ofhaplotype-resolved structural variation in human genomes.[J].  bioRxiv preprint first posted online September. 23, 2017.

【3】Hefan Miao, Jiapeng Zhou, Qi Yang,et al. Long-read sequencing identified a causal structural variant in anexome-negative case and enabled preimplantation genetic diagnosis. bioRxivpreprint first posted online May. 21, 2018.

【4】Coster W D,Roeck A D, Pooter T D, et al. Structural variants identified by OxfordNanopore PromethION sequencing of the human genome. bioRxiv preprint first posted online October. 3, 2018.

【5】Dixon J R,Xu J, Dileep V, et al. Integrative detection and analysis ofstructural variation in cancer genomes. Nature Genetics50, pages1388–1398 (2018).

气候变化还能改变基因组大小?

两栖动物是动物发展历程中的关键群体,作为第一批登陆的脊椎动物,在动物从水生到陆生的进化过程中起着“承先启后”的重要作用。两栖动物能在陆地存活,但无陆地繁殖的本领,是一群过渡类群,这种独特的生命史使其对气候变化十分敏感。

众所周知,基因组记录了物种的遗传信息,物种的进化必定是建立在基因组的进化之上,于是人们很自然地把基因组的大小与物种在进化上的复杂程度相关联起来。然而它们的演化轨迹是否完全一致呢?在漫长的进化史中又有哪些因素会导致基因组大小的变化呢?为了解开基因组大小演化中的这个谜题,西班牙和英国研究者通过大规模的两栖动物发育系统及多种进化模型研究了两栖动物生命史,揭示了影响两栖动物基因组演化趋向的关联因素并且发现气候变化可间接影响两栖动物基因组大小,论文于近日发表在nature ecology & evolution上。

两栖动物是动物发展历程中的关键群体,作为第一批登陆的脊椎动物,在动物从水生到陆生的进化过程中起着“承先启后”的重要作用。两栖动物能在陆地存活,但无陆地繁殖的本领,是一群过渡类群,这种独特的生命史使其对气候变化十分敏感。

众所周知,基因组记录了物种的遗传信息,物种的进化必定是建立在基因组的进化之上,于是人们很自然地把基因组的大小与物种在进化上的复杂程度相关联起来。然而它们的演化轨迹是否完全一致呢?在漫长的进化史中又有哪些因素会导致基因组大小的变化呢?为了解开基因组大小演化中的这个谜题,西班牙和英国研究者通过大规模的两栖动物发育系统及多种进化模型研究了两栖动物生命史,揭示了影响两栖动物基因组演化趋向的关联因素并且发现气候变化可间接影响两栖动物基因组大小,论文于近日发表在nature ecology & evolution上。

Fig. 1 两栖动物系统发育树

已有的研究表明,基因组大小与细胞核大小、营养物需求、生命周期复杂性、基础代谢、细胞周期、组织分化和发育速率等有关。该研究通过系统发育方差分析表明,生命周期复杂性与基因组大小之间没有显著相关性(Fig. 2a,2b)。在有尾目中,幼形遗留物种基因组大小与非幼形遗留物种之间亦没有显著差异(Fig. 2c)。由此表明,两栖动物基因组大小与是否有幼虫发育阶段无关,反驳了早期基因组大小与是否存在变态发育有关的研究结论。

Fig. 2 两栖动物基因组大小进化的祖先状态重建表征图

为了检测基因组进化速率随着时间的推移在两栖动物不同目之间的差异,明确有尾目特征空间的变化是自发变化还是突变进化的结果,研究者采用BAMM算法估计基因组大小进化速率,结果表明,有尾目基因组大小进化较无尾目更慢(Fig. 3a),蚓螈目处于中间状态,且随着时间的推移,到现代有尾目进化速率下降,而蚓螈目和无尾目进化速率均有缓慢的增加(Fig. 3b)。进化模型拟合表明,无尾目和蚓螈目的基因组是在共同的Brownian motion过程下进化的,而有尾目基因组的进化过程则截然不同。

Fig. 3 两栖动物三个目的基因组大小进化速率评估

环境温度是变温动物生理机能的重要决定因素,影响细胞复制、代谢和发育。而已有研究表明快速发育导致无脊椎动物基因组大小的减小,因此推测环境温度的变化可能在基因组大小进化中具有重要作用。该研究结果表明,在无尾目和有尾目中,环境和生活史相关,高温和干旱显著减少其发育时间。在无尾目中,基因组大小与发育周期相关,短的发育周期其基因组也较小。由此可见,气候变化可间接影响两栖动物基因组大小。

在整个生命之树中,基因组大小的显著变化是随时间渐进式进化导致的还是间断式进化的结果一直存在争议。研究认为这两个过程都有贡献,尽管当间断事件发生的时候可能会对基因组大小进化的整体模式产生深远的影响,但是间断事件罕见。研究也推测Brownian-motion-like的进化模式可能是分子过程相互作用的结果,主要是转座子含量的变化,其可导致多倍化或复制事件甚至是突变的基因组进化。