欢迎来到Oxford Nanopore测序技术新世界

测序技术新时代

自454开启了第二代高通量测序的一扇新世界大门,测序技术飞速发展,高通测序技术呈现出百花齐放的姿态,最后Illumina赢得了第二代高通测序最后的战役,但风云变幻,出现了新的改变者——第三代测序技术PacBio SMRT和Oxford Nanopore Technologies。

ONT的概念从上个世纪80年代就提出来,但从理论到商业化应用,走了二十多年,2014年,ONT对外提供MinION试用项目计划(MAP),随后几年不断对早期版本仪器的高错误率和低通量问题进行改善,从2016年开始,Nanopore平台通量得到较大提升,错误率也显著降低,在基因组中的应用已从小基因组逐渐延伸到复杂动植物基因组中的应用,而更高通量平台GridION X5 和PromethION的发布将对Nanopore在复杂物种中的应用更为简单和便捷。

1 纳米孔测序技术原理

在牛津纳米孔测序技术中,将纳米孔蛋白(Nanopore)插入由合成聚合物形成的膜(Membrane)中,该膜具有非常高的电阻,通过对膜上施加电势,在纳米孔产生离子电流。当DNA分子通过纳米孔时,会形成特征性离子电流变化信号,该纳米反应信号可用于确定DNA分子上碱基的序列。其中,DNA分子上接的马达蛋白(Motor Protein)会附着在纳米孔蛋白上,控制DNA分子以一定速度通过纳米孔,一个纳米孔处理完一个序列后,可重新开始另外一条新的序列。

小提示

  1. Membrane:该膜具有非常高的电阻,通过对膜上施加电势,在纳米孔产生离子电流。
  2. Motor Protein:为解旋酶,在构建文库时,马达蛋白会随引导接头一同加在DNA分子上,在测序过程中,马达蛋白会对双链DNA解压和解链,使得单链DNA以一定速度经过纳米孔。

Nanopore平台升级

Nanopore平台自2014年进行MinION MAP项目开始,不断从flowcell、纳米孔、测序试剂和信号捕获及碱基识别软件等方面进行升级改进,其中,测序纳米孔最开始为R6,后面不断升级,出现了R7,R8,R9版本,到现在已经升级为R9.4,随之而来的是准确率和通量的提升。

Figure 2 Nanopore平台改进后的数据产量和准确率比较

除从MinION的硬件和软件全方位升级外,ONT还发布了MinION延展性平台GridION X5和 PromethION,在延续了MinION的核心测序技术及操作简单和文库制备快外,弥补了MinION测序仪通量低,及不适用于大批量样本或大基因组测序的不足(Table 1)。

Table 1 Nanopore平台参数对比

建库方式

  1. 在1D 建库中,仅有引导接头(Leading Adaptor),在测序过程中,首先,马达蛋白对双链DNA解压和解链,引导接头通过纳米孔,随后模板链通过。
  2. 在2D建库中,既有引导接头,还有连接双链DNA分子的发夹接头(Hairpin Adaptor),在测序过程中,首先,马达蛋白对双链DNA解压和解链,引导接头通过纳米孔,随后模板链通过,然后发卡接头和互补链通过。
  3. 在1D2建库中,DNA双链分别通过纳米孔,但并未如2D测序中通过发卡接头连接。当模板链完成测序后,之后纳米孔会捕获互补链的马达蛋白进行互补链测序。

Figure 3 Nanopore测序中3种建库模式

1D测序优势在于文库构建更便捷,可低至10min,可得到更长read,相对1D测序,2D测序中模板链和互补链序列可以得到高质量的一致性序列。

4 下机数据

Nanopore平台下机数据格式为FAST5格式,每条read都有各自的FAST5文件,除碱基信息,还含有信号数据及其他宏数据,所以read文件大小远大于read碱基大小,FAST5文件需要转化为FASTA和FASTQ格式再进行后续分析。在1D reads中通过判断是否通过平均质量值来确定下机read为“Pass”或者“fail”,在2D reads中,还需要兼顾模板链和互补链的质量。

Figure 4 每条read的FAST5文件示意

5 在基因组组装中应用

ONT和PacBio技术间的读长和错误率有相似性,因此,在ONT基因组组装中会采用PacBio的一些方法,如overlap, layout, consensus等组装原理,这些原理都来源于早期Sanger数据组装应用,目前Nanopore数据分析可适用的分析工具参考下面表格建议(Table 2)。

目前Nanopore数据组装中应用最为广泛的是Canu,有数据校正步骤,不过最后需要用Nanopolish进行polish;Miniasm是PacBio和Nanopore数据组装的一款工具,典型特征就是快,比如线虫基因组组装在16核运算条件下,仅需9分钟完成组装,因为追求速度,也牺牲了组装准确性。

Table 2 常用适用于Nanopore数据的分析工具

随着Nanopore平台不断升级,通量和准确率得到极大提升,不断有研究者开始通过Nanopore数据进行更大基因组组装,如100Mb线虫基因组,再到G级别的番茄基因组,未来Nanopore技术平台在复杂基因组中应用潜力无限。

参考来源

1.Leggett R M, Clark M D. A world of opportunities with nanopore sequencing[J]. Journal of Experimental Botany, 2017: erx289.

2.de Lannoy C V, de Ridder D, Risse J. A Sequencer Coming Of Age: De Novo Genome Assembly Using MinION Reads[J]. bioRxiv, 2017: 142711.

3.https://nanoporetech.com/

Nanopore 测序组装基因组浅析[多物种]

听说最近大家的朋友圈被组学君家的Nanopore 两大利器——MinIONGridION刷屏了,组学君家的座机也被咨询Nanopore的电话打爆了,大家热情这么高,组学君也不能辜负,于是从未来组最专注的基因组组装方向,为大家整理了几篇已公布的基于Nanopore测序基因组文章,先让大家一睹为快,当然,Nanopore测序到底如何?你不来未来组试试如何知道,组学君等你。

万事开头难,先从模式物种

线虫基因组组装及复杂区域重排检测

Whole genome sequencing and assembly of a Caenorhabditis elegans genome with complex genomic rearrangements using the MinION sequencing device

建库信息

(2D) ONT sequencing library(SQK-LSK108),上机4 MinION flowcells(R9.0)48hrs

(1D) ONT sequencing library(SQK-RAD001),上机2 MinION flowcells(R9.3)48hrs(Figure 1)

Figure1 MinION 测序

下机数据

共下机1.1M reads,read长度最长123,159 bp (平均长度 4,801 bp),其中5.33Gb 1D碱基,其互补链的2D 序列有1Gb,1D 序列比对率为~93%,2D比对率90-95%,其中,3号染色体上有~3M的 duplication(chrIII:10,062,096-11,973,739)(Figure 2)。

Figure2 MinION read 比对到参考基因组

组装结果

经Nanopore数据组装可到145 Contigs,Contig N50 = 1.22 Mb,覆盖了参考基因组的99%序列。研究者并用短读长数据做了比较,经Illumina平台的~8.04 G数据,组装得到38,645 Contigs,Contig N50 = ~26 kb。通过MinION 的基因组组装结果,同时还确定了重排和插入的复杂区域结构。

高质量拟南芥基因组

High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell typical consumer computing hardware (4 Cores, 16Gb RAM)

建库信息

1 μg gDNA ,(1D) ONT sequencing library (SQK-LSK108)(~3h),a single ONT MinION flowcell (R9.4) 48hrs

下机数据

平均读长11.4K(N50 7.5 kb),3.4G base-called sequence,平均质量值Q7.3,其中200k以上reads有4条,最长有269K,超过100kb有14条reads,50k以上有2317条reads。

组装结果

文中经多种组装软件测试,其中,minimap/miniasm组装少于1hr,racon (3x)consensus  12 hrs,pilon 进行polish 24 hrs。

ONT minimap/miniasm (ONTmin) 组装得到62 Contigs,ContigN50=12.3 Mb,覆盖了100% (119 Mb) 的非重复序列(Table 1),经BioNano光学图谱数据验证了其高连续性,并经PacBio RSII数据验证其高碱基质量。

最后研究者不忘计算此次Nanopore测序组装项目成本,总共花费了4天时间,以及包括仪器折旧和测序耗材在内1000美金。

Table 1 OxfordNanopore (ONT) 和Pacific Biosciences (PB)组装比较

模式物种搞定,再来点非模式物种

Gb级别番茄基因组组装

Reconstructing the Gigabase Plant Genome of Solanum pennellii using Nanopore sequencing

建库信息

通过2种片段方式建库:

  1. 富集长片段(12-80 kb,12-50 kb)建库,(1D) ONT sequencing library (SQK-LSK108),20 μg DNA/library,29 ONT MinION flowcell (R9.4)
  2. 未经片段筛选建库,24 μg DNA/2 library,2 ONT MinION flowcell (R9.4)

下机数据

共下机数据131.6G,平均一个Cell 4G产量,passed filter(Metrichor 1.121 base caller) 数据有110.96G(基本上是预估基因组1-1.1G的100X测序量),过滤后的平均Q-score为7.44,在文库优化后,平均读长在6,625-15,869bp间,最长read达153,099bp。

组装结果

提取40%,60%,80%数据量,经miniasm,Canu和 SMART de novo 进行组装测试,并经二代数据polish,其中Canu-SMARTdenovo效果最优:Contig N50 达2.5 Mb(Figure 3)。

Figure3 不同组装策略对比

欧洲鳗基因组快速组装

Rapid de novo assembly of the European eel genome from nanopore sequencing reads

建库信息

在血液和肝脏组织中提取High MW DNA,片段化到20 kb,构建不同文库:

ONT sequencing library (2D:SQK- MAP006),于ONT MinION flowcell(R7.3)上机;

ONT sequencing library (2D:SQK-NSK007和1D:SQK-RAD001),上机MinION flowcells(R9.0);

ONT sequencing library (SQK-LSK108和SQK-RAD002),ONT MinION flowcell(R9.4)。

下机数据

下机数据共15.6G(Table 2),k-mer分析预估基因组~860 Mb,下机数据基本上是基因组18X测序深度。

Table 2 Nanopore测序

 

组装结果

研究者开发组装新工具TULIP(The Uncorrected Long-read Integration Process),在二代数据基础上组装得到基因组891.7 Mb,Contig N50为1.2M,相对已有短读长组装的基因组草图提升显著。

现未来组Nanopore平台已稳定运行,测序服务也已正式起售,欢迎各位有意向了解的科研人员咨询您身边的科技顾问。

参考文献

1.Tyson J R, O’Neil N J, Jain M, et al. Whole genome sequencing and assembly of a Caenorhabditis elegans genome with complex genomic rearrangements using the MinION sequencing device[J]. bioRxiv, 2017: 099143.

2.Michael T P, Jupe F, Bemm F, et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell[J]. bioRxiv, 2017: 149997.

3.Schmidt M H W, Vogel A, Denton A, et al. Reconstructing The Gigabase Plant Genome Of Solanum pennellii Using Nanopore Sequencing[J]. bioRxiv, 2017: 129148.

4.Jansen H J, Liem M, Jong-Raadsen S A, et al. Rapid de novo assembly of the European eel genome from nanopore sequencing reads[J]. Scientific Reports, 2017, 7.

三代数据分析新工具MECAT:集超快比对、校正、组装于一体

导读

近日,中山大学研究团队开发的适用于长读长数据分析的新工具MECAT于Nature Method在线发布。与目前PacBio SMRT测序组装中常用工具相比,MECAT运算性能更优,运算结果结果相当或有提升,其中值得指出的是,运用MECAT分析工具,分析人员在个人计算机上即可对大基因组进行参考序列比对或基因组de novo组装。

来自Pacific Bioscience和Oxford Nanopore三代单分子测序技术的超长读长自面世就不断给基因组学领域的研究者惊喜,解决了很多基因组组学难题,助力多篇文章登上高分杂志。不过就像“你看见学霸轻松得高分,却没有看到学霸半夜挑灯夜战”一样,三代数据常用组装软件,如Falcon 、Canu和HGAP等都是基于两两比对确定overlap和纠错,这个过程非常耗时,基本上会花去整个组装过程中的大部分时间,对计算机资源消耗异常,对分析人员而言,真的会“挑灯夜战”。

未来组参与的“华夏一号”亚洲人基因组项目,当时国内外均缺乏纯三代测序数据进行大基因(>1Gb)组装的现成经验,已有生物信息分析学软件也不完善,而分析过程中面临着海量数据产出和大型基因组组装分析系列挑战,于是未来组同项目研究人员对FALCON进行改写和优化,顺利完成了这个项目。

针对以上问题,很多专注于长读长数据分析的团队,都在进行三代测序分析软件的优化工作,或开发更为高效的分析方法。中山大学研究团队开发的新工具MECAT(https://github.com/xiaochuanle/MECAT),可提高三代测序数据序列比对,校正和组装的运算速度,降低计算资源的消耗。

MECAT中算法原理

MECAT比对中采用全局种子打分算法,将长序列分成多个Blocks,序列间Blocks的k-mer进行比对(Figure 1a),以其中Block2为例,通过DDF(距离差异因子)对k-mer pair间打分(Figure 1b),以分数最高的为K-mer pair种子(Figure 1c),再以K-mer pair种子对其他block打分(Figure 1d),最后确定了2条序列间关系(Figure 1e),最终减少了局部序列比对的候选区域,进而减少比对所耗费时间。比较分析发现,通过DDF可以过滤掉50%-70%的候选区域比对(Figure 1g)。

Figure 1 MECAT算法原理图示

MECAT序列比对评估

总体来说,不论是PacBio数据还是Nanopore数据, MECAT都比其他比对工具快很多(Table 1)。

在5组PacBio数据集(E. coli,Yeast,A. Thaliana,D. melanogaster,Human)序列比对中, MECAT比对速度更快,其中在Human大型基因组数据的比对中,MECAT alignment的比对速度是MHAP-fast的5倍,是DALIGNER的17倍。

在3组Nanopore数据集(E. coli,B. anthracis,Y. pestis)序列比对结果中,由于其错误率高,MECAT运算中降低了比对参数,因此相比PacBio数据,MECAT在Nanopore中数据比对较慢。

Table 1不同比对方法在序列和参考基因组中比对结果

在对MECAT的比对敏感性和准确性评估中,基于3组模拟的PacBio数据集(E.coli,Yeast,Humanchr1)来进行了测试,相对MHAP和DALIGNER,MECAT aligner在敏感性和准确性都较高,且不论是小基因组还是大基因组,在敏感性和准确性上都表现出平衡。

MECAT基因组比对评估

MECAT在基因组比对中速度、敏感性、准确性和覆盖度都优于其他软件。

在4组PacBio数据集(E. coli,Yeast,A. Thaliana,D. melanogaster,Human)基因组比对分析中,MECAT在小基因组对比速度是BLASER的35-65倍,是BWA-mem的19-70倍,在人基因组中,比对速度也有BLASER和BWA-mem的几倍到十几倍(Table 1)。

在3组Nanopore数据集(E. coli,B. anthracis,Y. pestis)基因组对比分析中,MECAT是BLASER的2-5倍,是BWA-mem的4-6倍(Table 1)。

同时,三种比对算法的比对重叠率高达95-99%,这也表明MECAT的高可信度(Figure 2)。

Figure 2 MECAT,BLASER和BWA基因组比对重叠图示

*为Nanopore数据

同样的,MECAT在基因组比对中,不仅速度快,而且也兼顾了高敏感性、准确性及覆盖度(Table2)。

Table 2不同方法在基因组比对中的敏感性和准确性评估对比

MECAT数据纠错评估

MECAT能降低进入局部序列比对的候选序列数量,这也降低了后续校正时间,MECAT的序列校正优于其他常用校正软件。

在对4组PacBio数据集(E. coli,Yeast,A. Thaliana,D. melanogaster,Human)校正分析中,MECAT的速度是FC_Consensus的4–10倍,是FalconSense的5–21倍。

在对3组Nanopore数据集(E. coli,B. anthracis,Y. pestis)校正中,MECAT速度是FC_Consensus 的1.06~7倍,是FalconSense的1.6~11倍。

Table 3不同方法在长读长read校正中的速度和准确性对比

从以上测试评估中可以看到,与其他三代分析工具相比,MECAT在序列比对、校正方面做到了速度快,敏感性和准确性高,在组装上如何?于是研究者运用MECAT对CHM1基因组重构,结果发现也比PBcR-MHAP-fast(24.9x), PBcR-MHAP-sensitive(56.3×),Canu(5.1×) 快上几十倍,后面又利用102×PacBio数据(华夏一号-HX1)在单个32核计算机上完成了中国人基因组的组装工作。

测序技术的发展不仅局限于测序平台的不断创新,其上下游工作,如DNA/RNA提取、文库构建、数据分析等也同样重要,也需要如中山大学这样的研究团队一同努力,兼顾行业上下游工作的研发,从整体上推动行业发展和应用。

参考文献

XiaoC L, Chen Y, Xie S Q, et al. MECAT: an ultra-fast mapping, error correction andde novo assembly tool for single-molecule sequencing reads[J]. Nature Method, 2017. doi:10.1038/nmeth.4432

Oxford Nanopore测序数据惊艳首发!

武汉未来组(NextOmics)作为国内三代测序技术应用的开拓者,自2011年起一直致力于将领先的技术提供给关注前沿科学的合作伙伴。我们是中国PacBio测序服务供应商,是亚太区首批PacBio Sequel测序中心,凭借5年多的技术积累,成为了世界领先的三代测序中心。

今天,我们又将提供Oxford Nanopore (ONT) 数据首发,为大家引荐突破测序界“摩尔定律”的Oxford Nanopore测序技术。

【未来组采用人血源DNA,构建>10kb文库,于Nanopore MinION测1个flowcell,对下机reads进行质控统计,并与参考序列进行比对。】

高产出 高质量

单个flowcell产出约2.5G,与文献中使用Nanopore MinION测序组装人类参考基因组时的平均产出相当:~2.3Gb[1](39个flowcell共产出91.2Gb),并且其中高质量reads比例>80%。

超长读长

随后评估reads读长分布,平均读长~13.5kb,long reads最长达137kb,高于文献中的测序数据[1](Mean read length ~8.6kb)。

与参考基因组比对mapping率高

之后再评估测序数据的准确度,将reads与参考基因组GRCh37比对,mapping率高,符合预期。

简评 

记得今年早期,向稳(基云惠康创始人)在一篇微信文章中就提出,中国哪家测序公司会首先推出Oxford Nanopore的测序服务?我们今天算是给出了一个正式的答复。

三代测序是武汉未来组从2012年开始,就确定的差异化发展的战略。在2013年3月11日,正式推出三代测序(PacBio平台)服务以后,武汉未来组就一直不遗余力的推动三代测序在各个领域的应用,从一开始是在线粒体、叶绿体、细菌的基因组组装、表观修饰分析,逐步过渡动植物基因组的组装、人类基因组的组装、全长转录组等领域,武汉未来组一直走在了探索的前沿。今天,我们推出三代测序的又一个新平台,Oxford Nanopore,这对于我们来说,是一个新的里程碑。坦率的说,是否中国首家推出Oxford Nanopore测序服务,对于武汉未来组来讲,已经没有实质性的意义,但是,对于一个追求技术极限的团队来说,不走在技术的最前沿,就是一种耻辱,是我们不能接受的。

今天,我们公开的数据结果,仍然是很初步的数据,Oxford Nanopore平台仍然是一个早期应用的平台,还有很多不完美的地方。但是,我们相信,这条道路通向的,一定是一个崭新的世界!

Hello,未来!

Hello,Next-generation Omics !

参考文献

[1] MJain, S Koren, J Quick, et al. Nanopore sequencing and assembly of a human genome with ultra-long reads. bioRxiv.2017

未来组项目文章 |异源四倍体棉花全长转录组测序分析

未来组参与的异源四倍体棉花全长转录组项目文章于9月11号见刊New Phytologist,华中农业大学研究团队基于PacBio测序,并整合Iso-Seq流程开发适用于区分2套亚基因组转录本的分析方法,克服了短读长测序在解析多倍体isoforms的技术瓶颈,揭示了纤维特异性的可变剪接事件,2套亚基因组中部分同源基因的isoforms差异,并在isoforms水平上揭示了miRNA对可变剪接事件的调控,为研究多倍体物种可变剪接提供了新的研究角度。本次研究采用PacBio SMRT测序技术,对异源四倍体棉花进行全长转录组测序分析,直接得到更为完善的全长isoforms,完善棉花转录组注释,解析了异源四倍体棉花组织和2套亚基因中AS复杂性,并整合多组学数据,揭示AS的调控机制。
已有大量研究基于高通量测序技术揭示了真核生物转录组中的可变剪接(AS)的广泛性和复杂性,以及在植物发育阶段或应激反应中对AS进行全基因组范围内研究。基于短读长的RNA-seq在准确拼接重构全长isoforms时充满挑战,无法避免假阳性AS事件,尤其是在面对多倍体物种时,情况更加复杂。

研究方法

1.采集异源四倍体棉花Gossypium barbadense L. cv 3-79的根、下胚轴、叶、花瓣、花粉和花柱6个组织样本,提取RNA,等量混合,反转录为全长cDNA,构建1-2kb,2-3kb,3-6kb文库,上机PacBio RSII,P6C4,共测15Cells。

  1. 采集Gossypium barbadenseL. cv 3-79 6个发育时期(开花后0天即0 DPA、7 DPA、10 DPA、12DPA、20 DPA和30 DPA)的棉花纤维样本,提取RNA,等量混合,反转录为全长cDNA,构建1-2kb,2-3kb,3-6kb文库,上机PacBio RSII,P6C4,共测15Cells。

研究结果

1 全长转录组分析流程优化

在异源四倍体棉花全长转录组分析中,针对四倍体物种开发了整合性Iso-Seq数据分析流程(https://github.com/Nextomics/pipeline-for-isoseq),其中包含了数据质控、转录本分类、isoforms聚类及转录组后续分析(Figure 1),使用Samtools phase对来源于2套序列相似性极高的亚基因组的转录本进行区分(Figure 2)。

Figure 1 异源四倍体棉花的Iso-Seq数据分析流程

Figure 2 At和Dt 亚基因组上的转录本比对

2 Iso-Seq解析了多倍体棉花广泛的可变剪接、可变多聚腺苷酸、融合基因、新LncRNA等形式

(1)下机数据分析,共得到全长转录本1,096,932(ca. 43.2%)(Figure 3A),经mapping、phasing、clustering、consensus后总共得到44,968个基因的176,849个isoforms,其中全长isoforms平均2,175bp,比参考序列转录本平均1,462bp的长度长(Figure 3C),并且Iso-Seq可得到更多的多外显子isoforms(Figure 3D)。

(2)通过与参考序列比对,更新了18,008个基因,确定了222个融合基因,在新的转录本中确定了2,447个LncRNA,与LncRNA_V1比较,确定了365个新的LncRNA(Figure 3E)。在Iso-Seq中检测的44,968个基因中,基因上平均polyA位点数目为2.82(Figure 3F),同时分析了polyA位点侧翼核苷酸序列,其表现出核苷酸偏向性特征,在3’UTR的polyA剪切点的上游富含U碱基,在下游富含A碱基(Figure 3G),同时在polyA剪切点上游确定了2个保守的motifs(AAUAAA和UGUA)。

Figure 3 经Iso-Seq得到的棉花转录组图示

  1. 转录本分类 B.全长isoforms在文库中mapping汇总 C. 参考数据和Iso-Seq数据中转录本长度分布 D. 在参考数据和Iso-Seq数据中isoforms中外显子数目 E. Iso-Seq数据及中检测的全长LncRNA与LncRNA_v1的Venn图 F. 基因上polyA位点数目分布 G. polyA剪切点(-50 ~ +50)的核苷酸相对频率

(3)经Iso-Seq检测133,229个AS事件,发现63.8%基因的AS事件为内含子保留(IR)(Figure 4A),平均每个基因对应3.93个isoforms,大概是参考注释中的2.9倍(Figure 4B),另外,随机挑选了5个基因,根据其预测转录本设计引物,经RT-PCR来验证Iso-Seq中AS事件的检测,发现扩增片段与预测片段相符,同时,也发现了isoforms的表达量具组织特异性(Figure 4C)。

Figure 4 AS事件特征图示及全长isoforms的RT-PCR验证

A. AS事件分类及相对应的基因和AS事件数目

B. 参考数据和Iso-Seq数据中基因对应isoforms数据

C. 5个基因的AS事件的RT-PCR验证

3 组织特异性isoforms的结构和表达量差异分析

结合来自纤维样本和非纤维样本的Iso-Seq数据对比,检测到来自15,871个基因的66,652个两者共有AS事件(Figure 5A),经RNA-Seq数据对isoforms的表达量进行分析,发现组织特异性isoforms与isoforms组织特异性表达表现出一致(Figure 5B),挑选PB.1316进行验证,PB.1316可以转录为T1和T2两个isoforms,实验发现T1有些在非纤维组织中表达,如根和叶,在纤维发育过程中,T1表达量不断降低,而T2出现高表达(Figure 5C)。

Figure 5组织特异性AS事件和isoforms图示

A.组织特异性AS事件和相应基因的Venn图

B. 组织特异性AS事件类型图示

C. 最大组织特异性数值分布

D.PB.1316的2个isoforms(T1和T2)的转录模式 E. 对7个样本中PB.1316进行RT-PCR验证

4亚基因组的同源基因表现出isoforms结构差异

(1)结合已研究的16,077同源基因对和Iso-Seq数据,得到6,202对同源基因,可以分为3大类,其中group I中1,605对基因中At基因组isoforms数目呈收缩,group II中3,017对基因两者没有差异,而group III中1,580对基因中Dt基因组isoforms数目呈收缩,并对三个group进行GO分析(Figure 6A)。

(2)挑选来自不同group的三个基因对,group I的PAP10在At亚基因组中只转录1个isoforms,而在Dt亚基因组中转录6个不同isoforms;group II的ERD3在At和Dt亚基因组中都转录6个不同isoforms;group III的CPN60A在At基因组中可转录16个不同isoforms,而在Dt基因组中仅转录1个isoforms(Figure 6C-D)。

Figure 6  At和Dt亚基因组中同源基因isoforms数目

A. At和Dt亚基因组中同源基因isoforms log2比值及GO注释

B. At和Dt亚基因组同源基因PAP10的isoforms

C. At和Dt亚基因组同源基因ERD3的isoforms

D. At和Dt亚基因组同源基因CPN60A的isoforms

5 isforms多层面的调控——miRNAs和表观修饰

(1)对6个组织进行小RNA测序并整合已有的研究中测序的miRNAs,发现miRNAs结合AS在isoforms水平调控基因表达量。如PB.42410有5个isoforms,其中2个是miR399的靶序列; PB.18525可转录2个isoforms,其中1个isoform是miR397的靶序列,因为ES等事件PB.42410或PB.18525转录的其他isoforms而缺失了miRNA靶位点;PB.44799和PB.44311因为IR事件而获得miR7484和miR8634的靶位点;PB.27256和PB.2778转录的isoforms在 3’UTR和5’UTR分别获得miR396和miR827的靶位点(Figure 7A-F)。

Figure 7 miRNAs对全长isoforms靶向确定

(2)结合已有棉花纤维发育阶段的表观修饰分析数据与此次研究中的纤维样本的AS数据,在分析不同AS中核小体占位密度和DNA甲基化水平中,发现其可能都在定义外显子中起重要作用(Figure 8A和B);基于全长isoforms的UTRs注释,将其与CDSs的DNA甲基化水平对比,发现CG,CHG,CHH甲基化水平差异较小(Figure 8C,D,E,F,G和H),另外,经RdDM通路参与DNA甲基化的24-ntsiRNA在UTRs区域明显增加,可能与3’UTRs区域的CHG和CHH甲基化水平增加相关,这些都给AS和基因表达的甲基化调控提供了新思路。

Figure 8 isoforms中核小体占位和DNA甲基化分析图示

本次研究中经Iso-Seq测序,拓展了多倍体棉花的转录组研究,并从组织特异性和亚基因组角度确定了其中可变剪接的复杂性,结合多组学数据,分析了可变剪接事件的调控机制,而这些研究的基础关键在于需先获得全长isoforms。同时,文章也给予我们在转录组研究一些启发,在表型差异的转录组研究中,不仅需关注与其相关基因的表达量相关,也要考虑到可变剪接中的不同isoforms作用。

参考文献:

Wang,M., Wang, P., Liang, F., Ye, Z., Li, J., Shen, C., Pei, L., Wang, F., Hu, J.,Tu, L., Lindsey, K., He, D. and Zhang, X. (2017),A global survey ofalternative splicing in allopolyploid cotton: landscape, complexity andregulation. New Phytol. doi:10.1111/nph.14762

从已发表paper中找找全长转录组研究套路

自2016年玉米和高粱全长转录组文章相继发表后,全长转录组测序分析方法开始被越来越多研究团队认可,开始不断被运用到多组学研究中。到了2017年,动植物领域全长转录组测序分析项目也开始陆续发表,除了3月份刚发表的矮牵牛全长转录组项目文章,未来组其他全长转录组项目文章也正在路上赶来。

组学君通过汇总已发表的全长转录组文章,总结了几点应用全长转录组研究的小套路,说不定你苦思不得其法的问题,能在这里获得一些灵感。

材料选择与处理

在构建基因集时,文章中通常选择不同组织不同发育阶段的样本,提取RNA,等摩尔混合为一组进行测序;如涉及到转录本差异的研究,根据研究目的设置对照组和处理组进行全长转录组测序分析,或不同发育阶段或不同组织分为不同组,进行全长转录组测序分析;为考虑成本,在对不同发育阶段或不同组织进行转录本差异分析时,会对样本加barcode,一定比例混合测序,降低文库成本,还有项目在实验时会对样本进行均一化处理,但是目前PacBio官方对均一化处理并无正式Protocol推荐。

作为基因组组装的辅助工具

目前很多已发表的三代基因组文章中都会运用全长转录组测序分析的优势来辅助基因组组装和注释,如在异源六倍体小麦基因组组装及注释中,研究者通过对小麦6个组织进行PacBio SMRT测序,获得全长转录本,对小麦组装基因组的基因预测和注释分析进行完善,确定了之前小麦基因集中缺失的,及未注释的上千个基因。

更丰富的转录本结构形式

因PacBio SMRT测序的长读长优势,能呈现转录本完整结构,最开始的全长转录组paper中多集中于呈现不同转录本结构形式,如可变剪接(AS)或可变聚腺苷酸化(APA)得到的丰富的新的转录本,以及挖掘新的LncRNA,比较典型的案例可以参考高粱全长转录组玉米全长转录组。近来的全长转录组文章不仅会花一些篇幅陈述新发现的转录本结构形式,还会结合科学问题挖掘转录本结构形式更深层次机制。

全长转录组Iso-Seq与RNA-Seq结合精确定量isoforms表达量

目前,转录组差异研究多集中在基因表达量差异研究,首先,基于Iso-Seq获得丰富准确的isoforms,再进行RNA-seq对isoforms表达量精确定量分析。这也是目前全长转录组运用到转录调控研究中的常规思路。

转录本差异与表达量差异研究相结合

如上述4所说,目前大部分转录组差异研究多集中在基因表达量差异研究,而忽视了转录本结构差异,在拟南芥ABA处理后的响应研究中发现,可变剪接事件的转录本结构变化作用可能高于基因表达,这也给转录组研究提供一些启发,转录组差异研究不能只关注基因表达量差异,也需要结合转录本结构差异进行更全面的研究。组学君建议在转录组差异研究中,结合转录本结构差异与表达量差异来进行,当然转录本结构差异研究首选未来组提供的长读长PacBio SMRT测序技术。

开发更快速更有效的分析方法

目前全长转录组分析工具尚不丰富,可从研究项目数据分析中,开发一些适用于其他项目特征的全长转录组的分析工具,不仅可以对项目数据“物尽其用”,还可以为其他研究者提供分析方法的参考。如在矮牵牛全长转录组测序分析中,研究者针对无参考基因组物种,基于Iso-Seq和RNA-Seq开发了HySeMaFi(hybrid sequencing and map finding),挖掘尽可能丰富的可变剪接形式,并对isoforms表达量进行精确定量分析。

组学君汇总了这些年已发表动植物全长转录组文章,供各位参考,如有遗漏,也请各位留言补充。

备注:疾病相关的转录组研究未在内

未来组最新Paper:冬虫夏草线粒体基因组及DNA甲基化修饰信息

近日,由湖南农业大学研究团队完成,未来组参与的冬虫夏草线粒体基因组项目文章见刊Frontiers in Microbiology。研究经PacBio SMRT测序技术,解析了冬虫夏草线粒体基因组完成图,并构建肉座菌目真菌系统进化分析,为冬虫夏草的分类地位提供了遗传学证据,同时,对线粒体基因组范围的DNA甲基化修饰进行分析,为目前首篇研究真菌线粒体基因组表观修饰的论文报道。

冬虫夏草(Ophiocordyceps sinensis)是冬虫夏草菌感染蝠蛾幼虫而形成的冬虫夏草菌子实体与僵虫菌核(幼虫尸体)构成的复合体,是中国传统名贵中药材,主要产于中国西藏高原等高寒地带和雪山草原。冬虫夏草线粒体基因组完成图的获得可对冬虫夏草的进化和系统分类进行深入分析,同时,在PacBio测序中,带有甲基化修饰的DNA碱基会出现荧光脉冲信号的延迟,可直接被识别检测到,因此从测序原始数据中直接获得冬虫夏草线粒体基因组的甲基化信息,也为肉座菌目真菌线粒体基因组的表观修饰的进一步研究提供参考。

研究方法

采集冬虫夏草子实体进行DNA提取;质检合格后,构建20kb文库,上机PacBio RS II测序,P6C4,8个SMRT cell;将过滤后数据与已公布的201个真菌线粒体基因组比对,提取属于线粒体的序列,经HGAP组装;后进行线粒体基因组注释、甲基化和进化分析。

研究结果

  1. 经组装,得到成环的冬虫夏草线粒体基因组57,539bp,含有14 个保守蛋白编码基因(PCGs), 1个rps3, 27个 tRNAs和 2个 rRNA,其中AT含量占69.8%。另外,冬虫夏草线粒体基因组中内含子54个,与肉座菌目其他真菌相比数量最多,分析还确定了73个ORFs(Figure 1 和Table 1)。

Figure 1冬虫夏草线粒体基因组圈图

Table 1 肉座菌目真菌线粒体基因组特征对比

  1. 基于14个与OXPHOS系统相关的保守PCGs做ML系统进化树分析,分类结果确定了冬虫夏草在虫草科中的分类地位,再次更正了之前经冬虫夏草形态学分类到Cordycepssp. 的错误(Figure 2)。

Figure 2基于冬虫夏草线粒体基因组中14个PCGs ML系统进化树

  1. 基于19个肉座菌目真菌rps3基因构建的进化关系,发现与上述基于PCGs的系统进化关系有差别,在对肉座菌目中rps3基因的选择压力分析中,加入了外群P. nordicum,发现肉座菌目真菌受正选择压力(Figure 3),rps3的36个序列位点受正选择压力(dN/dS >1),其中16个序列位点具统计显著性(P ≥0.95)(Table 2)。

Figure 3基于肉座菌目真菌rps3基因构建系统进化树

Table 2肉座菌目真菌rps3基因对数似然函数值及参数评估

  1. 在冬虫夏草线粒体基因组中,确定了1604个修饰位点(正向链783个,反向链821个),平均modQV scor(特定修饰信息的一致性)为24.68,平均覆盖度在96×左右(Figure 4)。在其中确定了28个4mC(0.13%)和10个6mA(0.017%)的修饰位点,大部分6mA和4mC分布在基因间区或内含子区,仅有3个DNA甲基化分布在编码区nad2,nad4L,nad5(Table 3),研究推断其甲基化信息可能与冬虫夏草在寒冷及低PO2的高海拔环境生长适应性相关。

Figure 4 冬虫夏草线粒体基因组中DNA修饰

Table 3 冬虫夏草线粒体基因组的6mA和4mC信息 

PacBio SMRT测序技术的长读长有效解决了冬虫夏草的线粒体基因组中高AT区域或高重复区域难题,得到线粒体基因组完成图,准确定义了基因组特征和进化地位,这一优势也已延伸到科研项目中解决大基因组的复杂区域难题;同时,PacBio测序原始数据可直接用来检测基因组中DNA修饰信息,可让研究者从表观修饰信息角度挖掘与环境适应性相关的分子机制。

参考文献

Kang X, Hu L, Shen P, et al. SMRT sequencing revealed mitogenome characteristics and mitogenome-wide DNA modification pattern inOphiocordyceps sinensis[J]. Frontiers in Microbiology, 2017, 8: 1422.

王凯组发布新算法RepeatHMM,剑指DNA重复类“暗物质”诱发遗传病

微卫星序列扩张,尤其是三核苷酸重复扩张,会引起脆性X综合征,弗里德赖希运动失调,肌强直性营养不良和脆性XE神经缺陷等40多种遗传性疾病,这些统称为三核苷酸重复性疾病TRDs。

如,ATXN3基因通常含有13-41个CAG重复,而ATXN3基因上CAG重复超过55个后具有致病性,会引起脊髓小脑性共济失调3型疾病SCA3。除此,不同的致病性CAG重复次数,会引起其他多种多聚谷氨酰胺疾病。

TRDs的严重性和TRDs综合征发作年龄与三核苷酸重复序列大小密切相关,重复单元数量超过一定阈值后,重复单元数量越高,疾病症状将更严重,综合征发作年龄将越提前,严重的会诱发遗传早现现象。因此,对三核苷酸的重复单元准确检测不仅将提高科研人员对TRDs及其中分子机制的理解,同时,对TRDs临床诊断,风险评估和预后都尤为重要。

微卫星序列重复单元检测方法

目前,在对微卫星序列重复次数检测的方法中,通常会先对基因组中靶序列进行PCR扩增,再经毛细管电泳等技术手段鉴定,但都费时费力,且通量低;Sanger测序又对长的重复序列很无奈;而二代测序读长太短,很难测通整个重复片段区域,当然还无法覆盖高GC含量区域。

第三代高通量测序技术,如PacBio SMRT测序和Oxford Nanopore测序,可覆盖10K及以上的序列,因为是单分子测序,对GC含量异常区域没有偏好性,可解决上述检测手段在重复片段区域的瓶颈。然而由于三代测序单reads的准确度有限,如PacBio的三代测序数据的单read的碱基错误率平均达到了15%,现有的算法并不能有效地检测出基于三代的长读长reads的微卫星序列重复单元。

重复单元鉴定新工具RepeatHMM

希望组&未来组创始人之一的王凯教授,带领实验室开发了一套基于三代测序的repeat region鉴定的算法RepeatHMM,解决了目前微卫星序列重复单元鉴定的技术瓶颈,该算法不仅能识别出repeat region,同时能够鉴别重复单元,进而计算出重复单元数量和重复片段的大小。这为更进一步认识基因组、鉴定因repeat region变化导致的遗传病等,奠定了算法基础。

RepeatHMM流程如Fig. 1,先找出目标区域的起始位置;然后对覆盖该区域的长reads进行切割mapping,以提高mapping的准确率;三是要保证重复区域上下游的一些特异性片段,作为标记mapping上;四是针对三代测序的错误进行纠正;五是基于隐马可夫模型进行重复片段估算;六是基于peak calling算法,进行位点的重复片段分布估算。

RepeatHMM获取地址:

https://github.com/WGLab/RepeatHMM

RepeatHMM评估方法

模拟数据1评估:

100套不同覆盖深度PacBio模拟数据,设置ATN1正常和致病性等位基因 CAG重复次数。

模拟数据2评估:

根据真实PCR扩增情况模拟100套不同覆盖深度的PCR扩增数据。

SCA3患者数据评估:

经PacBIo Sequel对25名参与者(20名SCA3患者,5名健康对照者)ATXN3基因的扩增子进行测序。

SCA10患者数据评估:

基于SCA10的3个患者原始数据,评估RepeatHMM在更为复杂重复类型的检测性能。

NA12878不同平台数据评估:

基于NA12878的三个平台(PacBio SMRT ~50X,Oxford Nanopore ~30X,Illumina ~300X)及正常表型HX1(PacBio SMRT , ~100X)。

RepeatHMM评估结果

1.结果显示RepeatHMM和 BAMself工具在覆盖度从10至50时,正常等位基因的RMSE(评估预估重复次数和真实重复次数间差异)降低, RepeatHMM和 BAMself工具在覆盖度从10到200时,致病性等位基因的RMSE降低,但是RepeatHMM的提升更加明显,覆盖度超过200时,RepeatHMM的致病性等位基因RMSE降低至2.0以下。与BAMself相比,在大多数正常等位基因和致病性等位基因中,RepeatHMM能得到更准确的重复次数(Figure 2a和c)。

2.基于PCR扩增的模拟数据与1的结果高度一致,但,对于致病性等位基因的RMSE如要和1在一个水平,则需要更高覆盖度的数据(Figure 2b和d)。

3.基于Sequel的SCA3原始数据,RepeatHMM的预测结果非常好,与毛细管电泳检测的重复次数基本0或1,而且与BAMself和TRhist相比,特别是在病原等位基因上,预测性更好。另外, RepeatCCS(基于CCS序列的RepeatHMM)虽预测性比BAMself 和TRhist要好,但其预测错误率比RepeatHMM高很多(Figure 3)。

4.SCA10数据评估,发现BAMself 和TRhist不能准确检出3个患者的ATXN3致病等位基因的重复单元数量,而RepeatHMM评估的重复大小更接近于凝胶电泳的预测结果(Table 1)。

  1. NA12878不同平台数据评估显示,以Illumina数据为标准,两个长读长平台预测与Illumina预测高度一致,表明具不同数据错误类型的测序平台数据可在RepeatHMM上进行分析(Figure 5)

基于上述全方位的评估,从模拟数据到真实TRDs患者数据,从简单重复类型的SCA3患者数据到更为复杂重复类型的SCA10患者数据,再从不同测序平台进行评估,都显示出RepeatHMM的分析优势。

相对常规方法,RepeatHMM中HMM 对重复序列区域检测相当灵活,适用于不同重复单元类型,不同重复单元长度;其次,可将不同测序平台数据经不同参数整合到HMM中;再次,RepeatHMM运算非常高效,如在对1名患者的ATXN3的原始数据(~21,000X)分析时,通常需要2-12min。

希望组&未来组发布的分析新工具RepeatHMM,具使用灵活、高效等特征,结合长读长测序数据,将能对微卫星序列重复单元数量进行快速便捷的鉴定,可以广泛应用于微卫星重复性疾病的研究中。

作为三代测序精准医疗公司,希望组未来会将这款工具的应用延伸到临床诊断中,不断突破现有测序技术所面临的瓶颈和挑战,切实提高遗传病诊断准确度和检出率,降低出生缺陷和罕见病的发生率。

参考文献

Liu Q, Zhang P, Wang D, et al. Interrogating the “unsequenceable” genomic trinucleotide repeat disorders by long-read sequencing[J]. Genome Medicine,2017, 9:65.

从Science野生二粒小麦基因组到小麦基因组大家族

普通小麦基因组高达17Gb,为异源六倍体AABBDD类型,且含有80%的重复序列,使得小麦基因组解密历程艰辛。研究学者面对困难,勇敢直前,一步一步地绘出不同小麦基因组图谱。近期,研究者再次添砖加瓦,于Science发表野生二粒小麦基因组研究成果。

解析野生二粒小麦基因组AABB

现代的六倍体小麦AABBDD Triticum aestivum是经异源四倍体野生二粒小麦Triticum turgidum(WEW)驯化为有脱粒特性的现代二粒小麦(DEW)后,与二倍体DD Aegilops tauschii杂交形成。野生二粒小麦基因组的解析将可以从另外一个角度了解小麦的进化。

基因组组装

WEW基因组在测序策略上,构建了不同大小插入片段文库,经176x 深度的Illumina测序组装,组装10.1G基因组,Contig N50 57.37k,经遗传图谱和Hi-C进一步验证组装,最后得到Scaffold N50=6.96M,将基因组锚定到染色体上,然而,其中不确定的Scaffolds有0.4Gb,Scaffolds间gaps有~1.5Gb,经BUSCO评估,基因组组装完整度在98.4%。

注释及进化分析

WEW的2个亚基因组的同源性分析,发现其中72.3%同源基因对,同源基因对的表达模式和表达水平相似。另外少量同源基因对只在一个亚基因组中表达,功能富集分析表明,亚基因组调控的基因表达可能与小麦品种相关。

在WEW基因组注释中,预测了82.2%转座子序列,大多数转座子元件为长末端重复反转录转座子LTR-RTs,不同类型的转座子在2套亚基因组中含量相似。而大部分全长LTR-RTs在150W年前发生扩张。Ty3和未分类的转座子在A与B亚基因组中类似,而Ty1/copia发生在500W年前,这与A和B亚基因组杂交的预计时间相一致。

为了进一步研究不落粒的驯化性状,对Zavitan和Svevo杂交,发现了调控脆性BR表型的基因区域,其中包括WEW染色体3A和3B上的2个位点(15.5Mb,32.5 Mb),确定了小麦基因(chromosome-3A: TtBtr1-A和 TtBtr2-A;chromosome-3B: TtBtr1-B 和TtBtr2-B)。在栽培种中TtBtr1等位基因在编码区发生突变,而在栽培种和野生种中,TtBtr2未发生编码区突变,推断2个基因中的突变是互补的,获得R栽培表型。

通过外显子测序,驯化和野生二粒小麦显著分离成2个亚群,野生二粒小麦分布以色列、叙利亚、黎巴嫩和土耳其地区,栽培二粒小麦分布印度洋、地中海、东欧和高加索地区,与野生小麦相比,栽培小麦的多样性下降。

小麦基因组解密历程艰辛

面包小麦即普通小麦(Triticum aestivum)是世界上种植面积广泛的农作物,是全球重要的粮食作物。普通小麦基因组不仅规模大(高达17Gb),而且基因组复杂,为异源六倍体AABBDD类型,含有3套亚基因组,亚基因组间相似性高,无法定位基因来自哪套染色体,且含有80%的重复序列,这些都使得小麦基因组解密历程艰辛。

异源六倍体小麦基因组的常规测序策略是通过构建BAC文库,结合鸟枪法测序;在材料选择上,会选择从小麦的二倍体供体开始基因组测序,为下一步深入解析六倍体小麦基因组及驯化、重要农艺性状等研究做参考。

下面组学君盘点了已发表小麦基因组的几个典型。

2012年11月,Nature,Triticum aestivum,AABBDD

利物浦大学、加州大学戴维斯分校等 9所研究机构合作对小麦基因组进行了测序。研究中经454测序平台对普通小麦栽培品种Chinese Spring基因组进行测序组装,并与其二倍体祖先基因组比较,确定了9万多个基因。分析发现普通小麦在多倍化和驯化过程中,基因组中有大量基因家族丢失和基因片段冗余。其中发生扩张的基因家族大部分参与能量采集、代谢和生长等过程,与作物产量相关。进一步,研究确定了小麦基因与特定性状之间的关联,这些都为加速栽培小麦育种提供遗传资源。

2013年3月,Nature,Triticum urartu,AA

中科院遗传与发育生物学研究所领衔完成了小麦A基因组的测序工作。小麦A基因组的祖先物种二倍体野生一粒小麦,即乌拉尔图小麦,经91X的 Illumina HiSeq 2000测序,组装得到Contig N50=3.42 kb,Scaffold N50=63.69 kb,基因组序列注释结果表明,66.88%的基因组为重复元件,同时发现一些重要农艺性状基因和分子标记。

2013年3月,Nature,Aegilops tauschii,DD

中国农业科学院作物科学研究所牵头完成对小麦D基因组测序,经90X不同插入片段的短读长测序,组装的Scaffolds覆盖了83.4%基因组信息,其中65.9%为转座子,经RNA-seq对确定了43,150编码蛋白基因,其中71.1%经遗传图谱锚定到染色体上。基因组组装注释分析,揭示了与抗病性、生物胁迫和籽粒品质相关的基因家族发生扩张。

2014年7月,Science,Triticum aestivum,AABBDD

中国农业科学院作物科学研究所牵头完成对小麦D基因组测序,经90X不同插入片段的短读长测序,组装的Scaffolds覆盖了83.4%基因组信息,其中65.9%为转座子,经RNA-seq对确定了43,150编码蛋白基因,其中71.1%经遗传图谱锚定到染色体上。基因组组装注释分析,揭示了与抗病性、生物胁迫和籽粒品质相关的基因家族发生扩张。

未来展望

依据测序技术不断发展,基因组的解析有了更多选择。在2017年PAG会议中,中国农业科学院作物科学研究所报道了最新的节节麦DD基因组进展,通过结合DeNovoMagicTM2 Nrgene,Illumina X10,PacBio和10xGenomics数据,组装结果不断提升。并通过Cytogenetic技术, CEGMA, BUSCO分析,与BAC序列比对评估组装结果,均表明组装结果有很大提升。

目前PacBioSMRT长读长测序技术是复杂基因组测序组装的利器,组学君认为这一优势将能在异源六倍体小麦基因组及二倍体四倍体小麦基因组的深入解密中发挥优势,填补基因组中gaps,挖掘更多小麦基因组家族中的“暗物质”。等待各位研究学者的持续解密!未来组愿助力各位在小麦及其他作物研究中的工作。

参考文献

1.Avni R, Nave M, Barad O, et al. Wild emmer genome architecture and diversity elucidate wheat evolution and domestication[J]. Science, 2017, 357(6346): 93-97.

2.Brenchley R, Spannagl M, Pfeifer M, et al.Analysis of the bread wheat genome using whole-genome shotgun sequencing[J].Nature, 2012, 491(7426): 705-710.

3.Ling H Q, Zhao S, Liu D, et al. Draft genome ofthe wheat A-genome progenitor Triticumurartu[J]. Nature, 2013, 496(7443): 87-90.

4.Jia J, Zhao S, Kong X, et al. Aegilops tauschii draft genome sequence reveals a gene repertoire for wheat adaptation[J]. Nature, 2013, 496(7443):91-95.

5.International Wheat Genome Sequencing Consortium. A chromosome-based draft sequence of the hexaploid bread wheat (Triticum aestivum) genome[J]. Science,2014, 345(6194): 1251788.

6.Marcussen T, Sandve S R, Heier L, et al. Ancient hybridizations among the ancestral genomes of bread wheat[J]. Science, 2014,345(6194): 1250092.

7.Pfeifer M, Kugler K G, Sandve S R, et al. Genome interplay in the grain transcriptome of hexaploid bread wheat[J]. Science,2014, 345(6194): 1250091.

8.Choulet F, Alberti A, Theil S, et al. Structural and functional partitioning of bread wheat chromosome 3B[J]. Science, 2014,345(6194): 1249721.

Nature丨向日葵基因组发表

近日~3.5Gb的向日葵基因组组装结果在线发表于Nature主刊,借助于高质量的基因组序列信息,结合重测序和转录组测序数据,研究者解析了向日葵的花期和产油量性状,重构菊类植物进化史,详情见下文分享。

向日葵在进化或植物发育的研究中都是非常重要的模式生物,然而由于其基因组相当复杂,含有大量高度相似的重复序列,导致其基因组组装充满挑战。此次项目中,研究者借助PacBio SMRT测序技术迎难而上,对向日葵自交系XRQ进行PacBio测序,综合407个Cells的测序数据,组装得到13,957个Contigs,结合高密度遗传图谱信息,将Contigs定位到染色体上,锚定了97%的序列信息。分析发现,其中有超过3/4的基因组序列是长末端重复反转录转座子LTR-RTs。

在获得向日葵高质量基因组序列信息后,研究者进一步分析向日葵特殊的进化地位及重要的农艺性状。

比较基因组研究

为评估菊类植物的演化史,研究者选择了菊类植物中的代表物种生菜、朝鲜蓟、咖啡和外群物种葡萄与向日葵基因组来进行比较分析。

分析发现向日葵,生菜,朝鲜蓟都经历了一次全基因组三倍化事件WGT,时间大概在38-50Ma,而向日葵的进化历史更加复杂,在29Ma前发生了特异性的全基因组复制WGD-2,加上17次染色体的裂变和126次染色体的融合,最终才形成向日葵现在的17条染色体组型(Fig.1)。

Fig.1菊类植物从AEKs的进化途径

向日葵农艺性状研究

在对向日葵两个重要育种性状,花期和油脂代谢的研究中,研究者通过整合旁系同源序列信息、转录组基因表达及重测序中的遗传变异信息确定了相关候选基因。

通过参考拟南芥基因网络,在向日葵基因组中确定了与花期相关的270个同源基因(Fig.2a)。接下来,研究者对来源于72个亲本材料的480个F1代杂交种进行了全基因组关联分析(GWAS), 共定位了与花期相关的35个基因组区域。同时发现现代向日葵品种的花期调控基因在最近的全基因组复制过程中也发生了加倍,导致同一个花期基因在基因组中出现了两次(Fig.2b)。

Fig.2向日葵花期性状整合分析

a.向日葵花期调控基因网络关系

b.向日葵栽培品种的花期基因在染色体上的分布

在向日葵油脂性状研究中,研究者重构了向日葵油脂合成的代谢通路,确定了其中12个通路中429个候选基因(Fig.3a),同时,明确了32个基因区域的46个油脂代谢相关基因,与之前确定的QTLs相一致(Fig.3b)。其中,有9个油脂代谢相关基因在高油和低油品系中分化明显,分别在驯化后的育种过程中受到了人为选择。值得一提的是,其中PAP2基因家族的一个成员基因,前人研究发现该基因参与脂肪酸前体的合成,并能调控微藻的油脂含量,在本研究中发现该基因在种子里大量表达,且与种子的油脂含量密切相关。该基因可作为向日葵含量性状改良的重要候选基因(Fig.3f)。

Fig.3 向日葵油脂代谢整合分析
a.全基因组代谢网络 b.油脂代谢通路共表达通路 c.与QTLs共定位基因网络
d.甘油二酯和三酰甘油合成通路中基因 e.亚油酸脂合成通路中基因
f.参与脂肪酸前体合成的PAP2家族中候选基因的聚类树

向日葵高质量参考基因组的获得及相关遗传资源材料的丰富加强了以向日葵为模式的进化生态研究,同时,也加速了其育种进程,为基因组学研究提供了参考思路。

未来组作为三代测序基因组中心,已于2016年搭建了 Sequel、BioNano及Hi-C等技术平台。借助平台的搭建,未来组将会为更多合作伙伴提供专业优质的服务。

参考文献

BadouinH, Gouzy J, Grassa C J, et al. The sunflower genome provides insights into oil metabolism,flowering and Asterid evolution [J]. Nature. 2017.