【2018年末精选】值得一看的三代基因组文章(动物篇)

动物基因组一直以来都是组学研究领域的热门,目前动物基因组大小数据库(Animal Genome Size Databse)中已经收录了超过6000种有记载的动物,小到如咖啡短体线虫只有0.02pg,约合19.56Mb,而该数据库记录的维多利亚肺鱼基因组达到了近130G,两者相差6600多倍[1]

 图1 已记录的生物基因组大小范围[1]

随着测序技术的飞速发展,近年来越来越丰富的动物基因组研究极大地推动了人们对于人类起源、物种演化、医学、病虫害防治及濒危动物的保护等方面的认知及研究。2018年,运用三代长读长测序技术完成的动物基因组研究也是成果丰硕,逾40个高质量动物基因组被解析。以下组学君精选几篇高分文章,和您一起探讨动物基因组的奥秘~

  蝾螈基因组[2] 

——低深度三代测序组装完成的超大型基因组,揭示蝾螈断肢再生的秘密

24 January 2018,Nature

1月24日,Nature在线发表美西钝口螈(Ambystoma mexicanum)(~32Gb)基因组组装结果,是迄今组装完成的最大的基因组。研究中利用了三代PacBio测序技术及Bionano光学图谱技术,同时开发了新算法MARVEL,实现了利用低深度三代测序数据(32× PacBio数据)完成对超大型动物基因组的组装。

美西钝口螈基因组中重复序列高达18.6Gb,其中LTR和LINE是最主要的类别,其中不少长度超过10kb,并且组装出的97%的contigs都以LTR元件结尾。通过重复元件的相对形成时间分析得知:美西钝口螈基因组经历了持续时间很长的转座子活跃期,随后发生了近期持续性爆发式的重复序列扩张,大规模的重复序列扩张让美西钝口螈拥有如此庞大的基因组。

HoxA基因在肢体的近远轴(proximal-to-distal)发育中发挥重要作用,并且在断肢再生过程中会被重新活化。本研究中美西钝口螈的HoxA基因位点在单个contig上,含有明显的重复区域,比人类和蛙类的该基因大3.5倍,可能是由于该基因簇中在HoxA3和HoxA4之间存在一段170kb的扩张。

蝾螈的断肢再生功能具有非常重要的临床研究意义,此次美西钝口螈基因组的完成,与以往的单纯转录组数据相比,为研究提供了更为完整的参考信息。

 人类基因组[3] 
——里程碑:首个Nanopore测序完成的人类基因组,即将开启人类基因组完成图时代

29 January 2018, Nature Biotechnology

1月29日,Nature Biotechnology在线发表基于Nanopore超长读长组装人类基因组的研究论文。研究结果显示:低覆盖深度测序(~30×普通nanopore reads+ ~5× ultra-long reads)即能将基因组Contig N50组装到6.4Mb,填补了参考基因组(GRCh38)中12个gap,是单一测序手段得到的迄今最连续的人类的基因组。研究人员通过Nanopore MinION测序平台获得的ultra-long reads,最长读长达到了882kb。基于最先进的测序方法分析人类基因组中先前难以攻克的复杂区域,例如评估人类染色体端粒长度;完整地组装出6号染色体上的MHC区域(位于单个contig上)等,这是MHC首次在二倍体人类基因组中被准确地定向。此次Nanopore测序组装人类基因组研究论文的发表,对新测序技术的推广应用和更连续的人类参考基因组在临床医学研究中的应用意义深远。 

  高等猿基因组[4] 
——三代基因组de novo组装,揭示人类与猿的基因组结构差异

08 June 2018, Science

尽管近年来人们在类人猿和人类基因组的测序组装中做了很多努力,但我们对结构差异的理解,特别是对人类谱系特异性的理解,还远远不够。在以往的研究中存在两个基本问题:一是在类人猿基因组中存在相当大的杂合性;二是高质量的人类基因组常常被用来指导非人类基因组的组装,包括序列的顺序和方向,甚至是基因的注释。这造成了其他非人类基因组的“人类化”,结果导致很难发现在这些物种之间的结构变异和转录本差异。

为了解决这个问题,美国华盛顿大学Eichler研究组使用PacBio SMRT长读长测序技术及光学图谱技术,同时结合全长转录组测序辅助基因注释,生成了新的人类和类人猿基因组并着重分析了这些基因组中的结构变异事件。研究结果表明,与人的进化距离越远,结构变异的数目越多。

该研究还进一步研究了人与黑猩猩脑器官差异表达相关基因,研究表明,与黑猩猩相比,人特异性结构变异基因中与放射状胶质神经组细胞相关的基因表达下调。

这项研究充分体现了长读长测序在基因组de novo组装及完善基因组注释中的作用,不依赖于参考基因组的测序组装最大程度地保留了物种的特异性基因组信息,为研究近缘物种的演化及结构变异提供了有效方法。

 考拉基因组[5] 

——揭示考拉独特的“解毒”机制

02 July 2018, nature genetics

考拉又称树袋熊,主要栖息地是澳大利亚东部的桉树林区。近年来,由于栖息地减少、疾病传播等原因,考拉面临着极大的生存挑战,澳大利亚采取了一系列措施保护这一珍稀物种。

澳大利亚博物馆研究所等机构的研究人员和英国、美国等国同行在Nature genetics杂志上发表关于考拉全基因组的研究论文,该研究运用三代PacBio测序技术和二代Illumina测序技术,获得了高质量的考拉基因组,发现了超过2.6万个基因,进一步分析揭示出与考拉饮食习惯、免疫系统等有关的基因调控机制。

研究人员发现考拉对桉树叶片的解毒能力可能是与细胞色素P 450基因家族的扩张有关,这种被称为“细胞色素P450”的酶在生物代谢过程中扮演重要角色。关于犁鼻器和味觉感受器的基因家族扩张也使得考拉能够在众多桉树中找到次级代谢产物较少的叶子以供食用。考拉容易受到衣原体感染,为了保护刚出生的幼崽,考拉的乳汁中含有一种特殊蛋白质,能对抗包括衣原体在内的一系列细菌和真菌。

这一研究成果极大的促进了考拉生理、遗传学研究的系统性和科学性,同时对遏制考拉野生种群数量持续走低也有着积极意义。

  牛基因组[6]

—— Trio Binning方法突破单倍型基因组组装难题

22 Oct 2018, Nature Biotechnology


美国国家人类基因组研究所、Pacific Biosciences公司及阿德莱德大学等单位的研究人员开发了一种新技术,通过简单的方法即可实现从二倍体中组装出完整的单倍体基因组,这项新技术是基因组组装领域的重大突破,使研究人员能够鉴别从植物到动物等任何类型基因组中的复杂性,并获得比目前更为精确的参考基因组。该研究成果发表在10月22日的Nature Biotechnology杂志上,一经发布便引起广泛关注。

复杂的等位基因变异阻碍了二倍体基因组中单倍型序列的组装,为此研究者开发了trio binning方法,通过在组装前解析等位基因变异来简化单倍型的组装。与以往的方法恰恰相反,该方法的有效性随着杂合度的增加而提高。Trio binning首先使用来自两个亲本基因组的高精度短读长数据将子代的长读长序列划分为单倍型特异性的集合,然后每个单倍型独立组装,形成一个完整的二倍体重建。这一新方法运用了读长更长的PacBio测序技术,首次给出了每条染色体的真正基因组序列,获得迄今为止最高质量的两个牛亚种基因组。将该方法应用到拟南芥和人类家系中,同样获得了理想的分型效果。

该论文的作者之一John L Williams教授说,trio binning技术已经彻底改变了他们以前的技术,他说:“到目前为止,基因组序列都是由遗传差异最小的个体构建的。Trio binning技术标志着技术能力的重大进步,对研究和医学应用具有广泛的意义。” 并指出Trio binning技术将有助于建立更准确的个人基因组变异信息,这将提高基因测试的准确性,并有助于获得个人独特DNA序列,从而在其临床治疗上提供帮助。

 伊蚊基因组[7] 

——高质量伊蚊基因组,带来蚊虫防治新思路

14 November 2018, Nature

埃及伊蚊是传播包括登革热、黄热病、寨卡病毒以及切昆贡亚热在内的可怕疾病的载体。由于缺乏高质量的参考基因组,在了解蚊子生物学特性及蚊子防治等方面依然困难重重。

由洛克菲勒大学领导的国际研究团队结合PacBio测序、Bionano光学图谱、Hi-C分析、10x Genomics linked-read测序以及Illumina的短读长测序多种手段大大升级了埃及伊蚊的参考基因组并进行了重新注释,通过锚定物理图谱和细胞遗传图谱,研究者在伊蚊基因组中鉴定出了两倍于已知的、引导蚊子以人类为目标、定点产卵的化学感应离子受体。

研究还发现了有助于深入了解雄性性别决定位点的大小和组成并揭示杀虫剂耐药性关联基因之间的拷贝数变异。使用高分辨率的定量性状位点和群体遗传分析,研究者定位到了新的与登革热传染能力和拟除虫菊酯抗性相关的候选基因。

长读长测序技术及光学图谱、染色体构象捕获等技术的应用为人们展示了更精细的物种基因组结构,使人们得以更进一步地探索生命的奥秘,了解物种独特的特性及功能背后的基因密码。武汉未来组专注三代测序技术的研发与应用多年,依托于自身的PacBio、Nanopore、Bionano光学图谱及MGISEQ等平台,已合作发表多篇三代测序基因组文章。选择未来组,我们将为您提供高质量、高效率的三代基因组测序分析服务。

2018已发表三代动物基因组(PacBio)

2018已发表三代动物基因组(Nanopore)

参考文献:

[1] http://www.genomesize.com/statistics.php?stats=entire#stats_top

[2] Sergej Nowoshilow, Siegfried Schloissnig, Ji-Feng Fei , et al. The axolotl genome and the evolution of key tissue formation regulators.Nature.2018

[3] Jain M, Koren S, Quick J, et al. Nanopore sequencing andassembly of a human genome with ultra-long reads[J]. bioRxiv, 2017: 128835.

[4] Kronenberg, Z.N. et al. High-resolution comparative analysis of great ape genomes. Science 360(2018).

[5] Johnson, R.N. et al. Adaptation and conservation insights from the koala genome. Nature Genetics 50, 1102-1111 (2018).

[6] Koren, S. et al. De novo assembly of haplotype-resolved genomes with trio binning. Nature Biotechnology (2018).

[7] Matthews B J, Dudchenko O, Kingan S B, et al. Improved reference genome of Aedes aegypti informs arbovirus vector control . [J].Nature,2018

non-B DNA影响链聚合速度和错误率?PacBio告诉你!

non-B DNA是什么?

说起non-B DNA,是不是会有点陌生?不要紧,组学君从DNA的分子构象说起。依据脱氧核糖核酸的序列、超螺旋的程度以及方向还有碱基上的化学修饰、溶液状态等,我们可以在自然界的生物细胞中发现三种DNA构象:A-DNA、B-DNA与Z-DNA。理论上的B构象是细胞中理想、均一的结构,而实际的B-DNA从微观角度看各个碱基对也是有所不同的,平均每个螺旋周含有10个nt;A-DNA每一转螺旋的碱基对更多,因此螺旋相对更短更紧密;Z-DNA则是左旋型态,因而能够与B-DNA结合,由DNA单链上的嘌呤和嘧啶交替排列形成。

non-B DNA形成的序列模体包含Z-DNA、G4链体(一种稳定的非标准DNA二级结构,由四个鸟嘌呤层叠排列组成,每个鸟嘌呤由Hoogsteen氢键连接[1])、A相重复序列、颠倒重复序列、镜像重复序列、正向重复序列及其相应的子集(见图1A)。

图1A Non-B DNA模体类型

non-B DNA——是造物主的馈赠,也是诅咒

何出此言呢?non-B DNA可以调控很多细胞中的生理进程,越来越多的研究证据也表明,其在很多与疾病相关的细胞通路中起到关键作用,例如G4结构已成为颇具吸引力的抗癌治疗靶点。但同时,它也会影响DNA合成并导致基因组不稳定,在癌症细胞的染色体重排中尤其常见,单个位点在体外或者活体转移的实验中显示:non-B DNA构象会抑制原核以及真核生物DNA的聚合酶,导致复制叉的停顿或者中止。千人基因组计划中的致病基因和遗传变异数据还证实non-B DNA构象中点突变的发生几率相对要高一些。

首次在基因组范围解析non-BDNA影响聚合速度和错误率的研究[2]

近日来自宾夕法尼亚州立大学的WilfriedGuiblet等人使用PacBio单分子实时测序技术(SMRT)来评估DNA聚合速度和聚合酶错误受non-B DNA的影响,并使用特殊设计的噬菌体phi29聚合酶来记录脉冲间隔持续时间(IPDs)以测定主要的核苷酸序列(见图1B),两个荧光脉冲之间的时间对应于两个连续的核苷酸的结合时间。他们还使用IPDs作为衡量聚合作用动力学的参数,借助SMRT测序技术在基因组尺度上对non-B DNA模体类型的聚合动力学和错误进行直接、实时的监测。研究还将高突变和非突变的non-B DNA模体进行对比来分析SMRT聚合动力学和测序错误率之间的关系来探索测序设备和活体细胞中聚合作用的潜在关联。近日,该项研究成果发表于《Genome Research》,让组学君和大家分享一下吧!

 研究概览

Non-B DNA模体影响聚合动力学

研究者选取了包含non-B DNA数据库和注释的STRs(短串联重复序列)共92个可能形成non-B DNA的不同模体类型(见图1A),并且构建了包含各类模体的基因组视窗,每个视窗自中心取样±50bp(多数小于100bp)且排除重叠视窗。在对照组中,研究人员还构建了100bp的无模体窗口作为基因组背景,即假定的B-DNA。研究使用之前使用SMRT测序的69×深度的人类基因组数据,用其中100个单核苷酸分辨率的IPD填充每个包含各类模体和无任何模体的窗口——因每一条链都作为SMRT测序中的模板单独使用,因此上述对参考链和互补链的操作都是独立的。对于每个模体类型,研究都进行了中心比对并聚合IPD曲线以生成每一条链的IPD曲线分布(见图1B)。

图1B SMRT测序时每一个subread记录了每一个核苷酸的IPDs

为了评估non-B模体是否呈现不同于B-DNA的聚合动力学模式,研究使用了Interval-Wise Testing(IWT)——一种新的功能数据分析(FDA)方法,并识别基因组碱基或IPD曲线分布在包含模体和无模体的100bp窗口之间显著不同的区间(图2)。而研究者在多个non-B-DNA模体中和/或周围发现了聚合动力学的改变。紧接着,研究者描述了对参考链的操作结果(总共包含2916328个含各种模体和2524489个无任何模体的窗口)(见图2A-D的上部分以及E)以及反向互补的结果作为生物学重复(见图2A-D的下部分)。

图2 non-B DNA 的聚合动力学

双线证据支持G4模体阻碍聚合酶进程的推断。首先,G4模体的存在降低了聚合速度。与无模体窗口相比,包含G4模体的窗口在其中心显示相当高的IPDs。更重要的是,包含了所有模体类型的IPD分布形状保持一致(见图2A)。其次,G4模体的测序深度低于无模体窗口(86%的无模体测序深度要高些)(见图2A),表明G4模体的存在会在一定程度上阻碍聚合,导致较少的reads覆盖。相反,富含胞嘧啶的互补链(图2A)以及参考链(其反向互补链上的G4s已被注释)(图2E)上的聚合显示速度加快,测序深度也略微有增加(92%无模体测序深度要高些)。同时,研究者也观察到其他的non-B DNA模体如A相重复序列、颠倒重复序列、镜像重复序列以及Z-DNA都显著地改变了聚合动力,使聚合变快(IPD更低)或者变慢(IPD更高)。但是和G4模体不一样,它们对两条测序链的聚合动力影响是相似的(见图2E)。

此外,研究还发现STR以长度和序列相关的方式改变聚合动力(图2B-E),这些变量影响non-B DNA结构的类型和稳定性,还形成滑移结构。对于≥2-nt重复单元的STR,聚合动力的变化是周期性的,具有与重复单元的长度匹配的周期(以碱基为单位)。这种模体在三核苷酸STR中尤其明显,其与某些神经系统疾病相关位点的扩展有关联(图2B-D),如(CGG)n、(CAG)n和(GAA)n分别与脆性X综合征、亨廷顿病和弗里德里希运动失调有关。能够形成发夹结构的STR表现出最显著的聚合减速和周期性(图2B、C、E)。相反,形成H-DNA的STR,包括(GAA)n,则会加速聚合(图2D、E)。

碱基修饰或核苷酸组成都不容易解释non-BDNA模体聚合动力学的变化。为什么这么说呢?首先,大多数non-B DNA模体的IPD模型在扩增的DNA中仍可清楚地检测到,这表明变化不是由原始模板DNA中的碱基修饰引起的。另一方面,单核苷酸或二核苷酸组成的成分拟合只解释了无模体窗口间平均IPD变异的相对小的部分。此外,大多数模体窗口的平均IPDs与上述拟合预测的结果有显著差异(图2F)。因此,核苷酸组成远远不能解释non-B DNA模体的IPD变化。 尤其是,仅凭G4+模体中鸟嘌呤的存在不能解释在这些位点观察到的所有聚合减速。

G4链体相关联的聚合动力学和生物物理学特征

为了检测non-B DNA结构能否通过实验形成预期的模体,研究者分析了人类基因组中最常见的10种G4模体来考察聚合动力学与生物物理特性的关系。根据圆二色光谱(CD)和天然聚丙烯酰胺凝胶电泳(PAGE)分析,所有10个模体在低钾浓度下迅速形成稳定的四链体,表明尽管具有不同的分子(分子内或分子间)和链方向(平行或逆平行),它们仍具有形成这种结构的高倾向性。用分子内G4s的回归分析发现,平均IPD与δε(P<2×10-16,R2=32.3%)呈显著正相关(见图3),而平均IPD与熔融温度(P<2×10-16,R2=5.7%)呈显著正相关(通过光吸收获取热稳定性和结构变性的程度)。 由此可以判断,聚合速度减慢与G4形成的生物物理特性相关,也充分说明模体是在SMRT测序反应中形成了G4结构,因此也就能够适配PacBio测序设备60×100nm的测序孔。

图3 G4链体稳定性和聚合动力的关系

Non-B DNA模体影响测序错误率

为了检查phi29聚合酶的准确性在合成基因组中不同类型的non-B DNA模体时是否受影响,研究还比较了模体区域和无模体区域中SMRT测序的错误率,研究者使用与上述IPD分析相同的69×人类基因组计算错误率(见表1)。由于存在STRs分型不准确和重复位点的序列错配的可能性,研究聚焦于基因组非重复部分参考链上存在的六种非STR模体序列类型。研究者仅关注模体本身(而不是包含100bp模体的窗口)并且鉴别出在数量和长度上匹配到六种模体上的无模体区域作为对照,且排除序列和参考基因组之间固定差异的包含模体和无模体的区域,并计算测序错误率作为含模体或无模体区域的核苷酸总数中的变异比例(相对于hg19),甚至包括单个read支持的错误。最后,研究给出新合成链的错误结果(新合成链使用了用non-B DNA模体注释的模板链)。

研究观察到了G4模体对SMRT错误率的强烈影响。当模板链上存在G4s时,新合成的链上的错配显著增加。当模板编码G4+尤其是G4-模体时,SMRT测序中常见的插入错误被抑制。与G4模体相比,Z-DNA显示出低水平的错配和缺失,但插入错误有所增加。综上所述,三种SMRT测序错误率在non-B模体和和无模体区域之间有所不同,在G4-模体处错配和缺失显著增加。接下来,研究又测试了SMRT中错配型错误率是否可以用序列成分来解释。在无模体窗口的SMRT错误率中,只有4.1%的可变性可以用单核苷酸组成来解释。在四种核苷酸中,鸟嘌呤含量与SMRT错误相关性最强,其数量的增加会导致SMRT错误率升高。二核苷酸组成的回归分析也解释了无模体窗口中SMRT错误率相当小比例的可变性(R2=5.6%)。此外,大多数类型的模体(除了A相重复序列外)的SMRT错误率都显著不同于由这种成分回归分析预测的错误率。因此,核苷酸组成不足以解释无模体窗口和non-B DNA模体的SMRT错误率变化。尤其要指出的是,G4+模体中高浓度的鸟嘌呤也无法解释在这些位点观察到的SMRT错误率的增加。

表1 SMRT测序时non-B DNA的错误率

SMRT错误率增加与聚合酶减速尤其是non-B DNA相关

研究者接下来分析了SMRT错误率是否与聚合速度有关。研究关注对SMRT误率影响最强烈的G4+和G4-模体并使用无模体窗口进行对照。研究者拟合了SMRT错配型错误率作为核苷酸组成校正的平均IPD值函数的回归。该模型还考虑了三组区域——G4+模体、G4-模体和无模体窗口——总体R2为35.4%(见图4)。研究发现SMRT错配率与模体窗口中冗余平均IPDs呈显著正线性关系(斜率=0.11,P=2.9×10_10)。有趣的是,G4+的回归线斜率显著高于无模体窗口,而G4-的回归线斜率与无模体窗口相似。由此可以得出结论,SMRT错配型错误与聚合酶减速正相关,且这种关联在G4+中特别显著。

图3 和动力学变化相关的错误

聚合酶速度与突变的产生

众所周知,突变率的发生在基因组中是不均一的,而导致区域变异的机制还没有完全被探明。关于SMRT技术的测序错误的结果以及之前的体外聚合酶研究证实了non-B DNA对噬菌体、原核和真核聚合酶合成DNA的影响,同时也提出了一个有趣的疑问:通过过聚合酶减速,这些模体也会影响活体的突变率吗?除了环境影响之外,突变是聚合酶错误和细胞缺乏修复的结果。研究假设突变主要由聚合酶错误引起,然后对比在人和猩猩分化水平以及人种内多样性水平下高突变率和低突变率的G4+模体之间的SMRT错误率和平均IPD。通过模拟,研究证明小的等位基因突变频率极不可能由Illumina测序在G4模体上增加的错误率引起。因此,研究使用的分化和多样性数据理应是高准确性的。高度分化(或多样化)的G4+模体具有较高的IPD值。此外,高度分化(或多样化)的G4+模体比低分化(或低多样化)的G4+模体具有更高的错误率。据此,研究人员现发分化(或多样化)程度与聚合速度呈负相关,而与SMRT测序错误正相关,表明鸟嘌呤四链体结构不仅影响测序错误率,还会影响活体的种系突变。

本研究首次使用单分子实时(SMRT)技术同时检测DNA聚合动力学和人基因组测序的误差。研究者发现,non-B和B-DNA的聚合速度之间有明显的差异:在G4模体时减速,在致病性的串联重复时呈周期性波动。通过聚合动力学分析,研究预测和验证了一个新的non-B DNA模体的形成,并且证实了一些non-B模体会影响测序错误率例如G-四链体的存在会增加错误率)且测序错误与聚合酶减速正相关。最后,研究证明了高度分化的G4模体具有明显的聚合减慢现象和较高的测序错误率,表明测序错误和种突变具有相似的产生机制。

 

文献精读| PacBio测序助力斑马鱼转录组高精度注释

导读

大家见过斑马鱼吗?

它披着美丽的深蓝色条纹,和斑马的条纹相似,因此得名。别看它个头小,不过4-6cm长,却是重要的模式生物,因为它易于繁殖,花费较少,而且最重要的是和人类基因组相似度很高(87%)。由于斑马鱼基因组注释不完整,关于其转录组的研究常常受到阻碍。在合子基因激活(zygotic genome activation,ZGA)阶段,斑马鱼转录组更是动态表达,其复杂性可想而知。在这种情况下,短读长的二代测序技术无法很好地将这种复杂性呈现出来。所以,来自西奈山伊坎医学院神经内科的研究人员利用PacBio长读长测序技术对斑马鱼ZGA阶段前后的胚胎进行全长转录组分析,获得了高精度的转录组注释结果,研究结果于2018年7月发表于Genome Research。

方法流程

研究者利用PacBio SMRT测序平台对斑马鱼ZGA时期前后的胚胎进行全长转录组测序及二代转录组测序,通过与参考序列比较分析获得了新的转录本及新的异构体。然后运用包括结构预测、序列一致性及功能守恒分析等一系列算法对这些结果进行验证,同时利用二代转录组数据进行定量。

Fig.1 斑马鱼胚胎全长转录组分析流程

研究结果
全长转录组数据分析使用GMAP将全长转录组比对到参考基因组GRCz10,研究者发现有18,777份转录本被成功比对到参考基因组上,仅有3.6%的全长转录组数据未能比对上,与短读长数据(>20%)相比要少得多。将全长转录组数据与GRCz10 RefSeq注释结果比对,发现在15,159个GRCz10 RefSeq注释的转录本中,8005个(52.8%)与全长转录组数据重叠(Fig.2)。与参考序列的高度一致性反映出该组数据的高质量,适合于进行新的转录本的鉴定。

Fig.2 全长转录本对参考转录组GRCz10的覆盖度

为了得到潜在的新型转录本,研究者首先分析了全长转录本与RefSeq转录本的结构相似性,大多数观察到的转录本与潜在的新基因或亚型相对应。结果显示,4205 (22.4%)个转录本被认为是潜在新转录区(NTR)的转录本,5295 (28.2%)个转录本是潜在的新isoforms(Fig.3)。

Fig.3 全长读转录组中潜在的新转录本

NTR区转录本进一步解析

将二代转录组数据比对到增加了NTRs的斑马鱼转录组,结果发现,短读测序数据被成功比对上,还捕捉到了斑马鱼参考基因组注释中缺失的新转录本的全部外显子结构。在经转录抑制剂α-amanitin处理和未经处理的样本中,大部分由长读测序发现的新转录本(分别为89% 和 86%)都有二代测序数据支持(TPM>1)(Fig.4)。

Fig.4 短读长数据支持新转录区

为了确定新的转录区编码蛋白质的功能,研究者分析了这些转录本的蛋白质编码潜力,与已知蛋白质序列的保守性,以及与已知蛋白质结构域的功能关系。他们使用CPAT (Coding-Potential Assessment Tool)工具验证NTRs的蛋白质编码能力,在4205个潜在NTRs中,CPAT鉴定出3255个极可能编码蛋白质的NTRs。

对于可能不编码蛋白质的NTRs,研究者通过两种方法——phyloP 算法和phastCons算法来评估它们在进化中是否存在保守性。研究者观察到,相对于随机对照区域,258个非蛋白编码NTRs转录本的保守性有所提高(24%)(Fig.5A)。

通过与Rfam数据库比对,研究者鉴定出76个匹配的长读长转录本(Fig.5B)。其中有一个特殊的NTR与Rfam数据库中的mir-548匹配,这个转录本仅存在于经转录抑制剂α-amanitin处理的样本中(该样本含大部分母源RNA),而在未经处理的样本中(该样本含大部分合子RNA),发现了一个具有较短的3’尾的该转录本的异构体。这个拥有更长的3’尾的转录本是已知的mir2189一个新的同源物(Fig.5C)。结合以往的研究结果,研究者指出,在这一对转录本中,母系转录本拥有更长的3’尾,这可能是推测的靶点,也可能是miRNA结构本身,且参与了母体向合子转变的调控过程。

Fig.5 非编码NTRs特征

新的转录异构体

为了完善的预测的新异构体列表,研究者还量化了可选剪接事件的数量,并将剪接事件类型的分布与RefSeq注释中观察到的情况进行了比较(Fig.6)。基于长读长测序数据,研究者发现了超过2000个新的可变剪接事件,可见长读长的转录组测序可以鉴定到更全面的可变剪接情况

Fig. 6 长读长测序与参考序列中的AS事件比较

研究者使用短读长数据量化在胚胎发育早期和晚期样本中发现的新异构体,分析表明:在胚胎发育晚期,可变的3’UTR及内含子保留的可变剪接形式有所增加(Fig.7A)。接下来,研究者还利用PCR实验验证了长读长数据对mvktead3bsrsf7ah3f3c等基因的可变剪接分析能力(Fig.7B)。

Fig.7 斑马鱼ZGA阶段前后的可变剪接事件(A);PCR验证实验结果(B)

此外,研究者还发现和验证了一种跨越多个mir-430元件的新的8 kb转录本,这是胚胎早期发育的重要驱动因素。

这项研究利用长读长测序技术在转录组研究中的显著优势,解析了斑马鱼ZGA阶段前后复杂的转录组动态变化,为斑马鱼转录组提供了高分辨率的注释资源。

PacBio的全长转录组测序技术为研究者提供了一个可以全面观察转录组动态变化的机会——无需拼接,直接获得转录本全长,可获得更多被二代短读长数据遗漏的novel 基因及isoforms,更真实地反映转录组全貌,这将为转录组学研究带来更多新的机遇。

翘首未来丨聚焦准确度,Oxford Nanopore 火力全开

通过之前的了解,我们已经知道Nanopore测序主要依赖于合成聚合物膜上的纳米孔,DNA/RNA链通过纳米孔时,产生电流信号,经base call可转化为碱基序列信息。从DNA/RNA链转换为碱基序列的过程中,化学试剂、测序模式、base call的准确度等方面都将影响到最终的碱基质量值(碱基质量值是衡量测序质量的重要指标,质量值Q越高代表碱基被测错的概率越小)。Oxford Nanopore Technologies(以下简称ONT)公司对于这些方面也做了一系列的开发和优化。在近日的Nanopore科研团体大会(NCM2018)上,Oxford Nanopore首席技术官Clive G Brown在会上展示了ONT团队针对Nanopore测序仪用户最关心的准确性问题做出的努力及研发成果,一起来看看在提升准确度方面ONT团队到底做了哪些升级吧~


图1 Nanopore测序示意图

从R9.4.1到R10

R9.4.1版纳米孔是目前Nanopore测序通用版本,有一个纳米孔通道,一个read head。R10 是一种新型的纳米孔,其纳米孔通道更长,具有两对Reader heads(图2)。这意味着可以产生更多的碱基控制信号以达到更高的准确度。在内部测试中,以75×覆盖度,新的R10纳米孔碱基质量值可超过Q40。ONT研发团队已开始着手于R10的测试工作,并发现了其中需要提升的部分。R10试剂有望在2019年早期公开发布。


图2 R9.4.1与R10版纳米孔

新的basecaller:flip-flop

这个基于flip-flop算法的basecaller软件同时适用于R9和R10版本试剂的测序数据,使用flip-flop重新识别现有数据(R9数据),碱基质量值可达到Q37。甲基化分析也被整合到了其中,现在已经允许使用R9.4进行5mC (CpG)的识别。这个软件将在12月中旬通过Guppy软件发布。ONT公司目前正在进行R10版本的工作,预计质量值可提升至Q42。用户可以通过http://bit.ly/2Q0EApc访问新碱基识别软件。

Linear Consensus Sequencing (LCS)测序模式

Clive勾勒了一个新的名为线性一致性测序(LCS)的方法。这种方法将一条链的数条拷贝结合在一起,通过一条读长进行测序,以获得更高的准确度。LCS测序模式保留原始模板链,可检测到链上的碱基修饰信息。

图3 线性测序Linear Consensus Sequencing (LCS)

8B4文库制备方法

8B4是一种新的文库制备方法,一个提升准确性的新文库制备方法可获取更丰富的信号。ONT公司目前正在精调8B4的碱基识别和共有序列方法。

1D2建库测序方式

1D2测序模式对DNA的两条链均进行了测序(图4),在保留碱基修饰的同时,提高单碱基准确率。1D2建库测序方式的更新将单条read准确度提高到了98%。新的1D2化学试剂含有带独特识别器(unique pairing identifiers, UPIs)的连接接头,支持用于扩增子测序。

图4 1D与1D2测序

ONT的这些更新将极大地提升Nanopore测序的准确性及碱基修饰的识别能力,使Nanopore测序的应用范围更加广阔,Nanopore测序技术将在动植物基因组组装、微生物基因组、全长转录组、结构变异检测及病原菌检测等领域具备独一无二的优势。

(内容整理自OxfordNanopore微信公众号)

参考链接:
https://mp.weixin.qq.com/s/ooZbJzsuAaeQQdBnN5lozg

【2018年末精选】值得一看的三代基因组文章(植物篇)

从2000年第一个植物基因组拟南芥被破译以来[1],近20年里有300多种植物被相继测序并发布,覆盖了各种粮食、油料、蔬菜、药用及果类作物。已知植物基因组从几十Mb到一百多Gb不等,其多倍性、高杂合以及多重复区域的特点常常让小伙伴们感到荆棘遍地,举步维艰。前段时间,整理了中药基因组的文章,今天再为您奉上2018年发表的植物基因组高分文章思路,助您新的一年披荆斩棘,在科研的道路上昂首阔步!

文章给出了105种已发表的基因组的组装对比,用事实证明了基于第三代测序技术平台在植物基因组组装上的显著优势。

玫瑰是重要的观赏性植物,具有很高的的文化和经济价值。法国里昂大学的研究人员完成了首个玫瑰全基因组的测序组装,并通过对几个主要玫瑰品种的重测序分析对玫瑰的起源及驯化历史提出了新的见解。

玫瑰基因组高度杂合,其基因组组装极具挑战性。法国里昂大学的Bendahmane研究组开发了一种体外培养方案,从源自中国的杂合二倍体玫瑰品种Rosa chinensis中获得了一个纯合子,用三代长读长PacBio SMRT测序和Hi-C染色体构象捕获技术获得了首个高质量玫瑰基因组。基因组的多样性分析揭示了同时具有强生长活力和反复开花的中欧杂交品种“La France”的起源之谜。研究者从Rosa chinensis的基因组片段中发现了新的与反复开花相关的候选基因。通过重建调控和次级代谢途径,研究者提出了一种与花香和花色相互关联的调控模型。

玫瑰基因组的发布为理解玫瑰性状的调控机制提供了基础,并将加速玫瑰、蔷薇科植物和观赏植物的品种改良。

小麦是人类重要的食物来源,获得其基因资源并对其遗传多样性和关键性状分析将是实现小麦高产增收的重要途径。

中国科学院遗传与发育生物学研究所植物细胞与染色体工程国家重点实验室等单位合作完成了小麦A亚基因组的测序和染色体序列精细图谱的绘制。该研究结合了BAC建库方法,三代PacBioSMRT技术、Bionano光学图谱技术和10X genomics技术,成功绘制了小麦A亚基因组的精细图谱,绘制出了小麦A亚基因组7条染色体的序列图谱,注释出了41,507个蛋白编码基因。

研究发现在小麦基因组中参与春化和开花的REM类转录因子基因有明显扩增。通过与水稻、高粱和短柄草基因组的比较和共线性分析,推演出了小麦A亚基因组7条染色体的进化模型,并鉴定出了小麦A亚基因组从二倍体,经四倍体到六倍体进化过程中的染色体结构变异。

此次科学家描绘的小麦 A 基因组图谱,将有力地促进小麦基因组学研究和小麦分子设计育种的开展。这项研究也体现了长读长测序技术及光学图谱技术在使基因组更完整、更精细、更准确上的重要应用价值。

中国农业大学农业生物技术国家重点实验室及国家玉米改良中心联手武汉未来组、斯坦福大学及冷泉港等团队合作,公布了一个重要玉米种质的高质量参考基因组,并发现了种内特有的基因顺序及基因结构变异可能对杂种优势和基因组进化产生影响。

该研究通过将三代PacBioSMRT测序技术、二代Illumina测序技术与BioNano光学图谱技术结合,获得了一个高质量的Mo17的参考基因组,给予了一个能够广泛比较玉米种内基因组多样性的前所未有的机会。

该研究利用三代测序技术揭示了玉米种间存在的大量非共线性基因、种内基因组结构变异及基因差异表达等,这些因素可能是造成玉米世系特异性的重要原因之一,因此评估这些非共线性基因对农业性状定量表型变异的影响将是未来一个很有价值的研究方向。

2018年10月,罂粟基因组在著名科学杂志Science上发布,一度引起轰动。该研究公布了罂粟基因组草图,组装中运用了Illumina、10Xgenomics及PacBio测序数据,并使用Nanopore和BAC数据辅助验证组装质量,最终contigN50为1.77Mb,scaffoldN50为204 Mb。

研究者将罂粟基因组与葡萄、拟南芥、阿拉伯咖啡、莲和耧斗菜等双子叶植物基因组进行比较分析,探索罂粟的演化历程。研究发现,罂粟基因组在距今780万年前发生了一次全基因组加倍事件。

罂粟基因组为研究者提供了一个可以定位与BIA代谢相关基因的机会——位于11号染色体上的一个584kb的区域内,排列着诺斯卡品基因簇、(S)- to (R)- reticuline (STORR)基因及四个吗啡生物碱合成途径相关基因,这些基因在茎中共表达合成吗啡,也称为BIA基因簇。研究发现,基因组重排在罂粟中BIA代谢的进化中起重要作用。

现代甘蔗是一种多倍体种间杂交种,同时具有Saccharum officinarum的高含糖量及Saccharum spontaneum的强抗逆性、抗病性和再生能力。甘蔗基因组大而复杂,其组装是一项世界性技术难题。

福建农林大学明瑞光教授团队应用BAC技术、Illumina、PacBio长读长测序技术及Hi-C染色体构象捕获等技术,首次完成了对单倍体S. spontaneumap85-441(1n = 4x = 32)的基因组测序,完成了32条模拟染色体的组装。通过两轮MAKER分析及人工注释,研究者鉴定出了甘蔗基因组中的35,525个等位基因。与高粱相比,S. spontaneum的基本染色体数目从10条减少到8条,这是由2条祖先染色体分裂引起的。通过基因组内部比较分析,证实了S. spontaneum发生了两次间隔较短的全基因组复制事件。研究者还鉴定了与甘蔗中C4光合作用途径、糖转运途径、抗病性等相关的关键基因。

该研究攻克了同源多倍体基因组拼接组装的世界级技术难题,率先破译甘蔗S. spontaneum基因组,同时还解析了甘蔗割手密种的系列生物学问题,特别是揭示了甘蔗属割手密种的基因组演化、抗逆性、高糖以及自然群体演化的遗传学基础。

菊属植物种类繁多,又含多种栽培种,兼具观赏和药用价值,且染色体组结构从2n=18到8n=72之间,十分复杂,多年来难以攻破。

中国中医科学院中药研究所所长陈士林研究员及副研究员宋驰博士等利用ONT平台解析了可能代表栽培菊属祖先基因组的二倍体菊花脑基因组,分析表明其演化受重复序列爆发和近期WGD事件的驱动,该基因组复制事件在约38.8个百万年前将菊属和向日葵分化开来;菊花脑观赏及药用性状的变异与包含旁系同源基因组复制事件的基因组家族扩张有关。对菊花脑中扩张的基因家族进行功能注释,发现这些基因功能集中在转移酶活性和萜烯合酶活性等方面,表明这些基因可能与次级代谢产物的生产有关。

研究者还绘制出与重要生物学特征基础通路相关基因的完整编目并分析了参与黄酮类和萜类化合物合成的基因。研究鉴定出了类萜合成酶(TS)基因和多个细胞色素P450依赖的加氧酶(CYP)基因,令人惊讶的是,除了那些已经在其他已测序的真双子叶植物中鉴定出的TS/CYP组合之外,研究者还在菊花中发现了新的组合,如TPS-a/CYP99和TPS-g/CYP79/CYP76等。

2018年发表的三代植物基因组文献(PacBio)

2018年发表的三代植物基因组文献(Nanopore)

参考文献

1. Initiative A G . Analysis of the genome sequence of theflowering plant Arabidopsis thaliana.[J]. Nature, 2000, 408(6814):796-815.

2. Belser C,IstaceB, Denis E, et al.Chromosome-scaleassemblies of plant genomes usingnanopore long reads and optical maps. NaturePlantsvolume 4, pages879–887(2018)

3. Raymond, O. et al. The Rosa genome provides newinsights into the domestication of modern roses. Nature Genetics 50,772-777 (2018).

4. Ling, H.-Q. et al. Genome sequence of theprogenitor of wheat A subgenome Triticumurartu.Nature 557, 424-428(2018).

5. Sun, S. et al. Extensive intraspecific gene order andgene structural variations between Mo17 and other maize genomes. NatureGenetics (2018).

6. Guo L , Winzer T , Yang X , et al. The opium poppy genomeand morphinan production[J]. Science (2018).

7. Zhang, J. et al. Allele-defined genome of theautopolyploid sugarcane Saccharum spontaneum L.Nature Genetics 50, 1565-1573(2018).

8. Song C., et al. The Chrysanthemum nankingense genome provides insights intothe evolution and diversification of chrysanthemum flowers and medicinaltraits. Mol. Plant(2018). 

RNA修饰?APA分析?isoform分配?Nanopore direct RNA一招搞定!

高通量cDNA测序技术极大地提高了我们对转录组复杂性和调控机制的理解。然而,由于经历了反转录过程,天然RNA中所包含的修饰信息往往无法通过cDNA测序获得。可喜的是,基于纳米孔测序的Nanopore平台恰恰可以实现对天然RNA分子的测序,不经反转,无需扩增,同时可以记录RNA链上的碱基修饰信息,真实反映个体转录本的原始信息。组学君今天要和大家分享的是,direct RNA测序如何在人类转录本中的RNA修饰、APA分析及isoform等位基因分配中大展拳脚。
Nature Methods: Direct RNA测序方法测评[1]

Nanopore平台对天然RNA测序的方法测评文章在今年年初正式发表,详细介绍了Nanopore平台在对酵母转录组进行direct RNA测序中的应用,并给出了direct RNA测序的文库制备流程(Fig.1a)。

Figure 1 (a) Direct RNA-seq文库的制备方法;(b)一个转录本通过纳米孔引起的电流信号

此外,文章还指出direct RNA测序还可以从测序信号中直接读取样本的可变多聚腺苷酸化信息(Fig.1b)和碱基修饰信息(Fig.2)。

Fig. 2 合成RNA链上的碱基修饰检测

Direct RNA测序是一种高度平行的、实时单分子测序方法,绕过了反转录和扩增步骤,可获得全长、链特异性的RNA序列,并能直接检测RNA中的核苷酸类似物。

bioRxiv: 人类天然poly(A) RNA转录组测序[2]

来自约翰霍普金斯大学的研究者利用Nanopore测序技术完成了对人GM12878细胞系中的天然poly(A) RNA分子的直接测序,其研究论文已经预印。通过结合高准确度的二代Illumina测序技术,该研究共鉴定了78,199个高置信度的异构体。同时,研究者提出了基于Nanopore RNA测序技术进行3’端poly(A)尾长度的评估、碱基修饰检测及isoform等位基因分配的策略。

方法流程

Fig.3(a)Nanopore天然poly(A) RNA测序流程;(b)具有代表性的2.3 kb TP3 转录本在Nanopore测序中引起的电流信号;(c)数据分析流程

Isoform鉴定

长读长的天然RNA测序可以发现用短读cDNA测序方法难以观察到的RNA异构体。通过结合Nanopore与Illumina平台数据,研究者在GM12878细胞系中发现了65.3%的新的转录本类型,这些在GENCODE v24中是注释不到的。值得注意的是,Nanopore poly (A) RNA数据集检测到的异构体数量没有达到饱和,表明需要更大的测序深度才能全面描述GM 12878 poly(A)转录本(Fig.4)。

Fig.4GM12878天然poly(A)RNA的isoform水平分析

等位基因特异isoform鉴定
理论上Nanopore RNA测序产生的长读序列应该更容易地分配给亲本的等位基因,因为遇到杂合子的SNP的可能性更大。研究者利用HapCUT2将至少包含两个杂合子变异体的reads分配给他们的亲本等位基因。研究者在这些数据中挖掘出34个有两种isoform形式的基因,这些基因中>80%的reads以一种isoform形式表达,来源于一个等位基因;而另有>80%的reads以另一种isoform形式表达,来源于另一个等位基因。例如其中的IFIH 1基因,父系isoform中第8外显子保留,而母系isoform不包括第8外显子(Fig.5)。

Fig.5IFIH 1基因isoform结构

IFIH 1在分配给母系和父系等位基因上的reads大致相等,但母系isoform不包含第8外显子(绿色框)。

Poly(A)尾长度鉴定

研究者建立了一种计算方法——nanopolish-polya,用来评估转录本中的poly(A)尾长度。采用poly(A)尾分别带有10、15、30、60、80和100个A碱基的合成RNA分子进行nanopolish-polya的测试,评估结果见Fig.6a。该方法也存在一定的局限性,当poly(A)区域在链转换过程中在纳米孔中的停留时则无法准确估算,有可能会造成错估(1-3%的概率会发生),且随着poly(A)尾长度的增加,方差也随之增大。

将nanopolish-polya应用到GM12878转录本中,发现Poly(A)尾的长度主要集中在50nt左右,部分转录本拥有更长的poly(A)尾。而线粒体的转录本的poly(A)尾长度集中于52nt左右,基本不超过100nt(Fig.6b)。

Fig.6nanopolish-polya的测试及应用

碱基修饰检测

核苷酸修饰会影响RNA的结构、局部电荷和碱基对电位,从而改变其与蛋白质结合的亲和力。m6A是mRNA中常见的修饰形式。研究者利用现有的免疫共沉淀研究来确定Nanopore poly(A)RNA测序数据中可能含有m6A的基因。将真核细胞伸长因子2(EEF2)的RNA在m6A位点上的原始电流信号与从GM 12878 mRNA产生的体外转录信号进行比较,证实了离子电流的变化是由m6A引起的(Fig.7a)。为了进一步验证这一结果,研究者设计并合成了GGACU METTL3模体中的29个碱基的寡核苷酸序列,包含了m6A修饰和未修饰的腺苷酸(Fig.7b)。Nanopore测序数据显示出来明显的区别(Fig.7c),与EEEF2的结果一致。

Fig.7 RNA碱基修饰检测

文章指出,Nanopore RNA测序具有两个明显的特征:一是被测序的RNA链依然保留着其在细胞中的天然结构,能够检测到转录后的修饰如碱基修饰和多聚腺苷酸化修饰等;二是读长足够长,可以达到数千个碱基。这种组合具有独特的优势,很可能为RNA的生物学研究带来新的见解。

[1] Garalde D R, Snell E A, Jachimowicz D, et al. Highly parallel direct RNA sequencing on an array of nanopores. Nature Methods,2018.

[2] Workman, R.E. et al. Nanopore native RNA sequencing of a human poly(A) transcriptome. bioRxiv (2018).

久等了!未来组携最新升级版Sequel数据前来报道

不久之前,PacBio官方宣布Sequel软件试剂再次升级(软件V6.0、试剂V3.0),性能优越,甚至实现了“长读长”和“高准确度”兼得!作为三代测序应用的探路者,新版软件试剂的测试和应用怎么少得了未来组!经过实验和生信研发团队的一番努力,最新版本Sequel数据新鲜出炉——未来组PacBio测序中心会有怎样的优异表现?一起来看看吧~
下机数据统计

未来组PacBio Sequel平台基于新版本试剂和软件(软件V6.0、试剂V3.0),产出和读长均得到了很大提升——基因组测序单个SMRT cell产出突破22.92Gb,polymerase reads 平均读长超过50Kb!

正如官方宣传数据,新版本试剂和软件在全长转录组方面的表现尤其优异——20h的运行时间,产出达到42.39Gb,polymerase reads平均长度达到59Kb,N50达到110Kb!

表1  V3.0试剂、V2.1试剂下机数据统计

下面来看一下新版本软件试剂在基因组和转录组中的具体表现~

基因组

在某植物基因组测序项目中,构建插入片段为30Kb的文库,分别使用新版的V3.0试剂、V6.0软件测序和V2.1试剂、V5.1软件测序,数据分布如下:

表2 基因组测序中V3.0试剂与V2.1试剂数据比较

图1 基因组测序中V3.0试剂与V2.1试剂subreads读长分布比较

转录组

在某昆虫转录组测序项目中,构建插入片段为0.5-6Kb的文库,分别使用新版的V3.0试剂、V6.0软件测序和V2.1试剂、V5.1软件测序,数据分布如下:

表3 转录组测序中V3.0试剂与V2.1试剂数据比较

图2 转录组测序中V3.0试剂与V2.1试剂subreads读长分布比较

武汉未来组早在2016年就已经成功搭建基于PacBio的三代测序平台,并于2017年9月成功搭建Nanopore测序平台,一直致力于第三代测序技术的应用和推广,应用三代测序的合作研究成果多次登上Nature Genetics、Molecular Plant及Nature Communications等国际知名期刊。

中草药基因组文章大盘点

中药学是我们中华民族的文化瑰宝,是世代传承的智慧结晶。《神农本草经》记录了中国365种中草药,而据统计中国有1000多种药用植物,因与国人健康息息相关,中药也成为了国民经济重要的支柱产业。随着测序技术的发展,人们逐渐可以从分子角度探究药用植物的功能基因组学、分子育种及合成生物学等领域,为开辟新的植物药用价值提供宝贵的参考。

近年来,不少中药领域的“重量级”物种的基因组信息先后被解码,如被称为“四大仙草”中的人参、灵芝和冬虫夏草;另有大麻、铁皮石斛、甘草、丹参等中药基因组相继被公布,相关研究文献也陆续发表,为中药中的有效药用成分的合成及代谢研究提供了有效工具,为中药“现代化”增添助力。

以下组学君精选三篇文献,和大家一同探讨中药基因组的研究套路
铁皮石斛基因组[1]
物种名:铁皮石斛 (Dendrobium officinale)分类:兰科 石斛属

基因组:1.35Gb

石斛属是在兰科中仅次于石豆兰属的第二大属,目前鉴别出的具有较高观赏及药用价值的种类有1000多种。铁皮石斛为石斛之极品,具有独特的药用价值,生于树上和岩石上。第一个铁皮石斛基因组文章于2014年发表在Molecular Plant上,该研究通过结合第二代Illumina Hiseq 2000测序技术和第三代PacBio测序技术,从头组装出了1.35 Gb的铁皮石斛基因组序列。该研究对铁皮石斛基因组进行注释,研究了与环境适应和共生相关的基因家族,并分析了铁皮石斛中的药用成分合成相关基因。

研究发现:兰科植物有着完整的花序基因集,并有一些相对于其他单子叶植物的特异性的花序基因;石斛中与真菌共生和抗旱性有关的一些基因家族发生了明显扩增;对药用成分合成相关基因的分析发现与多糖生成相关的SPS和SuSy基因发生了大规模复制,铁皮石斛生物碱合成信号通路从已有的研究基础上延伸到16-epivellosimine的合成。

二代测序技术(SGS)和三代测序技术(TGS)的结合有利于解决复杂基因组的组装难题。铁皮石斛的基因组数据,特别是基因家族分析结果,阐明了药用石斛的一些重要生物学特性的基因组基础,包括抗旱性、与真菌共生、兰花基因集的完整性和药用成分的生物合成等,提高对药用植物生物学的认识将最终促进中草药的现代化。

青蒿基因组[2]
物种名:青蒿(Artemisia annua)分类:菊科 蒿属

基因组:1.74Gb

青蒿是一年生草本植物,全生育期120天左右。青蒿药用价值很高,青蒿素的衍生物可生产很多系列药品,是抗疟疾化合物青蒿素的唯一天然来源。2018年3月,Molecular Plant杂志发布了高质量青蒿基因组。该研究同时结合二代测序技术(Illumina和Roche 454)和三代PacBio测序技术,组装得到的青蒿基因组大小为1.74Gb。研究者对青蒿基因组进行注释及基因家族分析,并结合转录组数据,探索青蒿素的生物合成及调控途径。

青蒿基因组高度杂合,杂合度为1.0%–1.5%,同时具有高密度的LTR重复序列。长读长测序数据的加入,跨越了这些单凭短读长技术难以逾越的障碍。通过对青蒿基因组的分析,研究者发现了871个可能为菊科植物所特有的基因家族。青蒿基因组和相关的转录数据不仅为青蒿素的生物合成途径及其调控提供了新的见解,而且也为青蒿素代谢工程研究提供了有效工具。

青蒿素的生物合成涉及多个酶促反应,这意味着可能有多个酶反应步骤限制了青蒿素生物合成过程中的代谢通量。研究者通过过表达青蒿合成途径中上、中、下游的基因,获得了转基因青蒿株系,可以明显提升青蒿素的产量,将有助于应对全球青蒿素需求增加的挑战。

罂粟基因组[3]
物种名:罂粟(Papaver somniferum L.)分类:罂粟科罂粟属

基因组:~2.72 Gb

罂粟的花朵色泽艳丽,具有极高的观赏价值。因其蒴果有致人成瘾的特点,被称为“恶之花”。而从另一个角度看,罂粟也是重要的药用植物,其提取物是多种镇静剂的来源,如吗啡、蒂巴因、可待因等。2018年8月,罂粟基因组在著名科学杂志Science上发布,一度引起轰动。该研究公布了罂粟基因组草图,组装中运用了Illumina、10X genomics及PacBio测序数据,并使用Nanopore和BAC数据辅助验证组装质量,最终contig N50 为1.77Mb, scaffold N50 为 204 Mb。

研究者将罂粟基因组与葡萄、拟南芥、阿拉伯咖啡、莲和耧斗菜等双子叶植物基因组进行比较分析,探索罂粟的演化历程。研究发现,罂粟基因组在距今780万年前发生了一次全基因组加倍事件。

罂粟基因组为研究者提供了一个可以定位与BIA代谢相关基因的机会——位于11号染色体上的一个584kb的区域内,排列着诺斯卡品基因簇、(S)- to (R)-reticuline (STORR)基因及四个吗啡生物碱合成途径相关基因,这些基因在茎中共表达合成吗啡,也称为BIA基因簇。研究发现,基因组重排在罂粟中BIA代谢的进化中起重要作用。

基因测序技术为中药的分子遗传学研究开辟了新大门,使人们得以从基因组水平洞察中药的作用机制。为了提高药用植物参考基因组质量,越来越多的研究者选择在基因组组装中应用PacBio、Nanopore、Bionano、Hi-C及10X Genomics等新技术。技术的发展推动认知进步,相信不久的将来,我们就可以用足够的科学数据支撑起中药之学。一起拭目以待吧~

>>>>
已发表中药基因组文献汇总

参考文献:[1] Yan L , Wang X , Liu H , et al. The Genome of Dendrobium officinale Illuminates the Biology of the Important Traditional Chinese Orchid Herb[J]. Molecular Plant, 2015, 8(6):922-934.

[2] Shen Q , Zhang L , Liao Z , et al. The Genome of Artemisia annua Provides Insight into the Evolution of Asteraceae Family and Artemisinin Biosynthesis[J]. Molecular Plant, 2018, 11(6).

[3] Guo L, Winzer T, Yang X, et al. The opium poppy genome and morphinan production[J]. Science, 2018.

Nature|多亏了PacBio,消灭蚊子有希望了

世界上最致命的动物是什么?答案竟然是不起眼的蚊子!不幸的是,每年因蚊子传染的疾病造成多达百万人的死亡!例如雌性埃及伊蚊,每年感染超过4亿人,传播包括登革热、黄热病、寨卡病毒以及切昆贡亚热在内的可怕疾病。
对此,科学家们能做些什么呢?
2002年,冈比亚按蚊(Anopheles gambiae)基因组图谱绘制成功,成为疟疾研究领域的里程碑[1],2007年、2015年,传播登革热、切昆贡亚热等疾病的元凶埃及伊蚊(Aedes aegypti )[2]和白纹伊蚊(Aedes albopictus )[3]基因组相继问世。期间,转基因不孕不育、无精蚊子的研究层出不穷,而就在近日,由洛克菲勒大学领导的国际研究团队在《Nature》杂志上发表了高质量且重新注释的埃及伊蚊基因组[4]。该研究结合了PacBio、Bionano光学图谱、Hi-C分析、10x Genomics的Chromium linked-read测序以及Illumina的短读长测序多种手段大大升级了埃及伊蚊的参考基因组,通过锚定物理图谱和细胞遗传图谱鉴定出了两倍于已知的、引导蚊子以人类为目标、定点产卵的化学感应离子受体。基于此,该发现有助于深入了解雄性性别决定位点的大小和组成并揭示杀虫剂耐药性关联基因之间的拷贝数变异。使用高分辨率的定量性状位点和群体遗传分析,研究者定位到了新的与登革热传染能力和拟除虫菊酯抗性相关的候选基因。埃及伊蚊升级后的参考基因组将为对抗这致死疾病的媒介带来新的生物学观点和防治策略,可谓是功德一件。

埃及伊蚊基因组(AaegL5)近1.25Gb且高度重复,由于缺少高质量基因组,针对埃及伊蚊的生物学控制手段迟迟未能推进。2007年发布的AaegL3[2]基因组因不够连续,未能全部挂载到染色体水平,近期的AaegL4[5]虽组装到出了染色体长度的scaffolds,但是由于contigs太短致使gap过多。因此研究人员选择了PacBio辅以Hi-C染色体构象技术组装出了高连续性的基因组,足足缩减了93%的contigs数,且端对端地锚定到了三条染色体上。使用光学图谱和linked-read测序,研究者验证了单倍型之间的局部结构和预测的结构变异。基于RNA-seq的read匹配序列平均提升了12%,并将之前被多个contigs分离了的基因模型连接起来,且使用ATAC-seq(利用转座酶研究染色质可接近性的高通量测序)对临近转录起始位点比对富集增加了近两倍,依此评估出基因集的注释得到了显著提升。

研究生成了166Gb的PacBio长读长数据(约130×)并使用FALCON-Unzip进行组装,得到2.05Gb基因组(Contig N50为0.96Mb,预期基因组大小一半以上的contigs>1.92Mb)(见表1)。

表1 组装统计比较

由于组装基因组比预期要大,因此研究使用了Hi-C染色体构象技术对上述组装用到的7,790条contigs进行排序和定向,通过Hi-C数据锁定了258个连接错误的区域后,得到了混合数据生成的8,306条有序定向的contigs;然后基于重合区域通过开发的流程排除了5,440个gaps并提升连续性,将94%的测序碱基锚定到三条染色体上。随后又使用PacBio长reads进行补洞和数据打磨,得到了1.279Gb的AaegL5基因组和完整的线粒体基因组。最后,使用Hi-C连接图谱,研究者估算出了近5Mb分辨率的着丝粒位点,且1号染色体近150-154Mb,2号染色体近227-232Mb,3号染色体约196-201Mb。

图1 AaegL5组装统计和注释

较之AaegL3和AaegL4,使用BUSCO评估出AaegL5更多的单拷贝直系同源基因,片段化和丢失的基因更少,连续性显著提升,且AaegL5中有65%的转座元件和重复序列。另外,研究使用NCBI RefSeq注释流程生成AaegL5.0注释版本,为253个性别、组织、发育阶段特异的RNA-seq文库的转录本富集综合定量建立基础。和之前的AaegL3.4版本比较后发现AaegL5.0优势明显,例如在基因组尺度上map到了1.8倍于原来基因集的ATAC-seq reads以预测转录起始位点。

接下来,研究者又验证了AaegL5组装版本在碱基水平和结构上的准确度。为开发基于AaegL5精细的物理图谱,研究生成了500个BAC克隆,包含伊蚊基因组DNA及通过荧光原位杂交绘制的物理图谱,然后比较它们的组装坐标,发现物理图谱和BAC末端比对序列之间一致性达97.4%。总之,AaegL5物理图谱的基因组覆盖度达到93.5%,相较于仅有45%的AaegL3,该物理图谱是目前所有蚊子基因组中最完整的。

近期复制的基因由于序列相似性高易被归为单个基因组的等位基因,因此含有多个基因的大型基因家族往往难于组装和注释,因此研究借助升级版的AaegL5基因组和AaegL5.0注释版本分析了大型基因家族中编码蛋白酶、G蛋白耦合受体和化学感应受体的基因并鉴定到54个新的离子受体基因,几乎是已知该家族成员的两倍。对于化学感应受体完整的特征描述将有助于开发紊乱蚊子叮咬行为的新策略(见图2)。

图2 染色体排列和新增的感应受体基因数

伊蚊和库蚊的性别决定受显性的雄性性别决定因子(M factor)支配,位于M locus染色体上,这条染色体除M/m染色体组型外都是同态的,即雌性为m/m,雄性为M/m,M locus的分子机制一直未能探明。研究比对了雌雄两种个体基因组(AaegL5和AaegL4),鉴定出了包含一种名为Nix的M factor的区域,可能代表分化的M/m位点,随后又对两个基因组中M locus进行了比较分析,发现Nix包含一段100Kb的单个内含子,而紧密关联M locus的基因myo-sex则近300Kb,且M locus有超过73.7%的重复序列。研究还通过对基因组雄性特异信号区域进行定量的方法探究了性染色体之间的分化,等等。更完整的蚊子M locus组装使得同态的性别决定染色体进化和延续的研究成为可能。

图3 AaegL5用于解析性别决定位点

最后,研究者借助Illumina和10×Genomics平台来分析埃及伊蚊基因组中包含插入、缺失、易位和倒位等结构变异,重点分析了编码高度保守转录因子的Hox基因和大型多基因组家族GSTs(谷胱甘肽S转移酶家族),还通过对四个实验室克隆样本进行全基因组测序以在全基因组范围内分析埃及伊蚊的遗传多样性,并且分析了其作为登革热病毒载体的感染能力和对拟除虫菊酯(模拟天然除虫菊素的人工合成杀虫剂)的抗性。

总结
这份研究最闪光的地方在于研究者结合了PacBio、Bionano、Hi-C以及10×Genomics多个平台,不仅获取了高度连续、高分辨率的埃及伊蚊基因组,还使用了多种方法综合分析了它与化学感应离子受体相关的基因,这些基因和蚊子辨别人类气味的关键基因,对它们的定位分析可谓是开发新型驱蚊剂的第一步,而且研究还探究了其性别决定因子的关键基因,又为从源头上控制蚊子数量提供了理论支持。希望研究人员在PacBio、Nanopore、10×Genomics等平台的助力下尽快掌握蚊虫遗传控制的机理,拯救那些受疟疾、登革热、寨卡病毒困扰的人们于水生火热之中,造福人类!

参考文献

[1] The Genome Sequence of the Malaria Mosquito Anopheles gambiae[J]. Science, 298.

[2] Nene V , Wortman J , Lawson D , et al. Genome sequence of Aedes aegypti, a major arbovirus vector.[J]. Science, 2007, 316(5832):1718-23.

[3] Chen X G, Jiang X, Gu J, et al. Genome sequence of the Asian Tiger mosquito, Aedes albopictus, reveals insights into its biology, genetics, and evolution[J]. Proc Natl Acad Sci U S A, 2015, 112(44):E5907.

[4] Matthews B J, Dudchenko O, Kingan S B, et al. Improved reference genome of Aedes aegyptiinforms arbovirus vector control . [J].Nature,2018,https://doi.org/10.1038/s41586-018-0692-z.

[5] Dudchenko, O. et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scafolds. Science 356, 92–95 (2017).

一大波病原体来袭,看Nanopore如何接招!

上一期介绍了使用Nanopore测序技术解决了偶蹄类动物的病原体鉴定、分型等疑难问题,其实除了动物,植物中的病原体也不在少数。如真菌、植原体和螺旋体、虫媒病毒等,每年对作物类造成的损失同样不可小觑。最近使用ONT来对植物病原体进行检测分析的文章也比较多,组学君选取了有代表性的成果和大家来分享。
案例一:Nanopore解析三种油菜茎基溃疡病菌基因组

油菜茎基溃疡病菌是甘蓝型油菜中一种子囊菌病原菌,有两个种的基因组已经发布了,其中一种由于短读长测序技术的限制导致富含转座元件(TE)的区域组装欠佳。因此本研究使用了Nanopore测序技术组装、注释了三种油菜茎基溃疡病菌JN3(升级参考基因组)、Nz-T4和G12-14(从头组装),且JN3组装到了染色体水平。高质量的组装注释有助于油菜茎基溃疡病菌、油菜黑胫病原菌和油菜三者之间的交互作用分析。

方法攻略

1.分离两种油菜茎基溃疡病菌JN3和Nz-T4以及油菜黑胫病原菌G12-14;获取JN3近缘菌种JN2的RNA;获取感染了上述两种油菜病菌的不同状态下的油菜样本以及感染病菌的三个不同油菜品种

2.从冻干的感染子叶和真菌菌丝培养皿等之中提取RNA和DNA

3.超声波打断为100-1500bp片段的DNA进行末端修复、加接头等处理用于Illumina测序,RNA构建cDNA文库也用于Illumina测序,同时构建插入片段为8Kb和20Kb的Nanopore文库用于MinION测序

4.离体培养JN2×Nz-T4子代构建饱和的遗传图谱

5.分别进行G12-14和Nz-T4的长读长从头组装并用遗传图谱和下载的光学图谱数据辅助JN3的基因组组装升级,用Illumina数据进行校正,最后用RNA数据辅助注释(见图1)

结果概览

用于组装的Nanopore数据见下表。

表1 三种菌种用于组装的Nanopore数据统计

虽然44.8Mb的JN3参考基因组已经足够连续了,但是仍然含约1.1Mb的gaps,且不论是光学图谱还是遗传图谱都显示有九条组装错误的超级contigs要么分离了要么融合在一起了。因此研究者以升级参考基因组为目标,在光学图谱和遗传图谱的辅助下使用PBJelly组装出了JN3全部19条染色体之外,还将基因组组装到45.99Mb,包含33条scaffolds,scaffold N50为2.43Mb,减少了570Kb的N碱基。在使用150×的Illumina数据进行打磨之后,更将基因组完整度提升到99%。

G12-14和Nz-T4分别为34.95Mb含156条scaffolds和43.42Mb含288条scaffolds,组装流程见图1。另外,通过整合油菜茎基溃疡病菌感染的样本的保守蛋白和RNA数据对基因组进行注释,对JN3、G12-14和Nz-T4分别预测了13,047、14,026和12,678个编码蛋白的基因。

图1 组装流程图示

这份研究最亮眼的地方在于使用长读长测序技术填JN3参考基因组填补的缺口其中了大量的重复区域,而这些重复区域在之前的研究中使用短读长测序技术都没有覆盖到。研究者是首次探测到了其中大小中位数为5.5Kb的63个串联重复基因。研究还使用Illumina reads和Nanopore reads映射到无gap的基因组上以对这些重复区域进行了深入的挖掘,同时也分析了AT和GC区域以探究潜在的基因组分区并评估了基因预测的结果。

案例二:Nanopore解析三种油菜茎基溃疡病菌基因组

植物病原菌的检测和鉴定对于疾病的控制和策略的选择是关键,这份研究从接种过未知病原菌的植物病理组织中提取DNA和RNA进行测序,并检测了200份种子样本,其中含感染两到三种病原体的样本也由感染未知病原体的病理样本。未知病原体感染样本使用Nanopore测序技术进行DNA或直接RNA测序验证了传统诊断的结果,充分展现了该技术的优势:长读长、高效、便携、低成本且适用于任何实验室,十分适宜于常规实验室的诊断工作。

方法攻略

1.收集病原株系:四种细菌、一种植原体、三种真菌以及三种病毒,然后对番茄、甜瓜、长春花、草莓、辣椒、柠檬等进行接种

2.提取种子、木质茎和果实中的DNA构建Nanopore 1D文库,并提取感染样本叶片或者果实中的病毒RNA并构建直接RNA文库;构建barcoding文库,打断、修复、连接barcode接头。对文库进行Nanopore测序

3.碱基识别的结果使用NCBI分类和RefSeq序列构建的参考索引进行分析,最后对未知病原体感染的植物使用不同的方法进行序列分析鉴定

结果概述

已知病原体的植物的症状包括叶和茎的枯萎、叶片有斑点等(见图2)。

图2番茄和黄瓜病理症状

测序进行10分钟后并在使用MinKNOW获得数据后2-6个小时,所有的病原体都鉴定到了种或者属的水平。研究还发现用于样本分析的reads数和样本分类之间差异较大,如93,000条reads能鉴定出42个样本,而15,000条reads只能鉴定出14个样本。但是,即使只有很少的reads也能够鉴定出病原体来,推测是由于reads平均长度较长的缘故。

200个番茄种子的测序分析显示三种病原体鉴定到种的水平,而多个DNA样品使用barcode标记也用于检验同一个芯片上测序多个样本的可能性。结果显示,带有barcode标签的reads数少于没有带标签的。将原始Nanopore reads映射到NCBI RefSeq数据库上,发现映射上的reads平均读长790-6,300bp,对细菌和真菌的平均覆盖深度<1,但是大多数覆盖到了全基因组(见表2)。

表2 使用nanoOK流程进行样本序列分析的结果

对于未知病原体但有症状的4种植物(样本13-16)进行DNA测序,样本13和样本14各鉴定出了一种病原体,为了验证鉴定的准确性,又从感染样本中分离出病原体克隆体进行测序分析,结果显示鉴定的结果是正确的。另外,也从样本15和16中各鉴定出了一种病毒,结果也得到了RT-PCR的验证。

这份研究引人瞩目的地方在于使用Nanopore技术对DNA或RNA测序可以成功的鉴定出细菌、病毒和真菌,但对于未知感染病原体的植物,真菌可能不太容易检测到。主要因为本研究使用到的RefSeq数据库包含了较多的病毒和细菌数据,但是真菌却只有很少,而且大部分还不属于植物病原体。另外一个亮点是,研究发现在加了barcode后,同一个run上进行多个样本的测序是可行的,虽然标记了barcode的reads较未标记的少,但是仍然可以检测到病原体。总之,研究指出使用Nanopore测序进行植物病毒的诊断是可行的,因其实时得到数据、不仅可在实验室操作也可用于野外作业,且不需要深厚的生物信息背景,所以大大缩短了诊断的流程。

原文链接:https://www.nature.com/articles/sdata2018235

https://onlinelibrary.wiley.com/doi/abs/10.1111/ppa.12957

参考文献

[1]DutreuxF,Silva C D, d’Agata L, et al. De novo assembly andannotation of threeLeptosphaeriagenomes using Oxford Nanopore MinION sequencing. ScientificData volume 5,Article number: 180235 (2018)

[2]ChalupowiczL, Dombrovsky A, Gaba V,et al. Diagnosis of plant diseases using Nanopore sequencingplatform. Plant Pathology.(2018).https://doi.org/10.1111/ppa.12957