基于二代高通量测序平台的RNA-Seq技术在过去几年中得到广泛应用,然而读长限制使其无法得到精确完整的转录本,极大地限制了人们对复杂转录本的深入研究。而基于三代长读长的Iso-Seq技术能测得转录本全长,精确识别各种可变剪切形式,完整重构转录本,为转录组研究奠定【以准确获得转录本结构为前提】的基础。
Fig.1[1]左图描述了可变剪切的几种形式;
右图示意三代长读长测序能准确识别该基因的2种可变剪接,而二代做不到
下面组学君为大家介绍两篇经典的全长转录组研究论文。什么叫经典?
经典就是前年的文章翻出来仍然能让人眼睛一亮。
经典文章聚焦
1高粱转录组
高粱适应环境的能力很强,是重要的抗非生物胁迫的模式研究体系。尽管目前已完成几种高粱品系的基因组测序,但是其转录组注释仍有待完善。研究者利用Iso-Seq 的TAPIS流程对数据进行评估和分析,结果表明PacBio Iso-Seq测序策略能够测通转录本全长,可鉴定全长的剪接异构体及其他形式的转录后调控事件(如APA),这不仅极大的丰富了高粱基因注释信息,也有助于其基因调控中研究,为转录组研究提供有力的研究工具,该成果于2016年6月发表于Nature communications[2]。
Fig.2(a)使用Iso-Seq测序分析方法得到的AS数量与已发表的高粱基因组注释的AS数量比较;(b)含有Poly(A)位点个数对应的基因数
研究中发现了共计27,860个转录本,其中11,342(40.7%)是新发现的,7,065个基因(25.4%)是覆盖全长的。9,341个基因(69.9%)只有一种Isoform,约5,200个基因有两个或以上的Isoform,415个基因有5个或更多的Isoform。从Iso-Seq读取序列中,发现了10,053个可变剪接形式,注释了其中7,000个新的可变剪接形式,而其中仅有2,950个已注释(Fig. 2a)。在14,550个表达的基因中,11,013个基因中至少含有一个poly( A )位点,超过7,700个(50%)基因有两个或者更多的聚腺苷酸化位点(Fig. 2b),说明APA现象在高粱转录组中是广泛分布的。研究中还确定了超过2,100个未注释过的新基因以及数千个3’非翻译区不同的转录本,研究者认为大部分新基因为长链非编码转录本。
2 玉米转录组
玉米是全球总产量最高的农作物,也是研究植物转录组代谢通路的重要遗传模型。玉米基因组序列于2009年公布,后来陆续有研究者利用EST和RNA-Seq转录组数据对其基因注释进行了补充。然而由于RNA-Seq短读长的局限性使该方法无法获得全长转录本序列,限制了可变剪接形式的鉴定。
冷泉港实验室等单位利用三代测序技术的长读长优势,获得了玉米的全长转录组,在已有的玉米B73 RefGen_v3参考基因上发现了大量新信息,揭示了玉米基因表达的复杂性,该项研究成果于2016年发表在Nature communications[3]。
Fig.3 Comparison of PacBio and RefGen_v3 Isoform
PacBio测序数据经处理得到643,330个高质量的转录本序列,其中606,145个序列(94.2%)能够比对到玉米RefGen_v3参考基因组上。经聚类分析得到了111,151个Isoform,对应26,943个基因,涵盖了玉米RefGen_v3中注释基因的70%。其中57% 的Isoform来自已知基因位点的新Isoform;2,803个(3%)新Isoform来自2,253个新的基因位点(Fig.3)。在PacBio Isoform中发现了来自53个家族的新Isoform,转录因子数量增至5,423个。其中155个新Isoform与生长激素应答的功能相关。此外,通过对PacBio数据的进一步挖掘,该研究还发现了867个新的LncRNA(平均读长1.1kb)。
文献读到这,你是否也不禁想,要不要我也把实验材料规整规整,做个转录组研究?稍等,有参考基因组的物种和无参物种,分析流程可是不一样的哦。
别担心,未来组不论是否有参,全长转录组项目经验都很丰富哦,以下为大家介绍2篇未来组项目经验论文,分别是有参异源四倍体棉花转录组和无参矮牵牛转录组。
1.未来组项目-有参异源四倍体棉花转录组分析
未来组参与的异源四倍体棉花全长转录组项目文章于2017年9月见刊New Phytologist[4],华中农业大学研究团队基于PacBio测序,并整合Iso-Seq流程开发适用于区分2套亚基因组转录本的分析方法,克服了短读长测序在解析多倍体Isoform的技术瓶颈,揭示了纤维特异性的可变剪接事件,2套亚基因组中部分同源基因的Isoform差异,并在Isoform水平上揭示了miRNA对可变剪接事件的调控,为研究多倍体物种可变剪接提供了新的研究角度。在异源四倍体棉花全长转录组分析中,针对四倍体物种开发了整合性Iso-Seq数据分析流程(https://github.com/Nextomics/pipeline-for-isoseq)(Fig.4)。
Fig.4异源四倍体棉花的Iso-Seq数据分析流程
研究者对多倍体棉花转录组进行分析,经mapping、phasing、clustering、consensus后总共得到44,968个基因,并从中定义了176,849个Isoform。其中全长Isoform平均2,175bp,比参考序列转录本平均1,462bp的长度长。
Fig.5(a)Iso-Seq数据及中检测的全长LncRNA与LncRNA_v1的Venn图;
(b)基因上polyA位点数目分布;(c)polyA剪切点(-50 ~ +50)的核苷酸相对频率
通过与参考序列比对,更新了18,008个基因,确定了222个融合基因,在新的转录本中确定了2,447个LncRNA,与LncRNA_V1比较,确定了365个新的LncRNA(Fig.5a)。在Iso-Seq中检测的44,968个基因中,基因上平均polyA位点数目为2.82(Fig.5b);同时分析了polyA位点侧翼核苷酸序列,其表现出核苷酸偏向性特征,在3’UTR的polyA剪切点的上游富含U碱基,在下游富含A碱基(Fig.5c),同时在polyA剪切点上游确定了2个保守的motifs(AAUAAA和UGUA)。
2.未来组项目-无参矮牵牛转录组分析
由华中农业大学园艺林学学院研究团队主导的,未来组参与的全长转录组分析项目文章,2017年3月发表于Scientific Reports[5]。研究通过结合全长转录组Iso-Seq和RNA-Seq两者优势,针对无参考基因组物种的转录组分析开发了HySeMaFi(hybrid sequencing and map finding)流程,该流程可对基因剪接形式进行挖掘,克服了RNA-Seq中不完善的Isoform重构形式,同时,也可定量Isoform表达,为后续研究提供准确的参考数据。
Fig.6 HySeMaFi 分析流程示意图
基于RNA-Seq和Iso-Seq两种测序策略,开发HySeMaFi分析方法,示意图见Fig.6。在RNA-Seq中,经不同组装方法拼装出所有理论上的Isoform形式(涵盖有真实的Isoform形式),同时在Iso-Seq中经过校正得到A、B两种Isoform。通过比对方法,建立RNA-Seq中 longest molecules(如图中 1)和PacBio corrected reads比对关系,用于后续下游分析,如得到的longest molecules和PacBio corrected reads可用于分析可变剪接形式,PacBio corrected reads可作为参考基因集做后续基因表达分析。
Fig. 7 经HySeMaFi方法全方位确定基因可变剪接形式
PacBio数据经聚类,80% Isoform聚类的cluster含有2个以内Isoform形式,同时也发现100个以上cluster含有50个Isoform形式(Fig.7a)。经HySeMaFi方法得到的转录本,如组装的longest molecules 和PacBio corrected reads,除了可能的外显子对应的基因Isoform外,至少有2,264基因有2个以上可变剪接形式(Fig. 7b)。为验证,以Miseq数据作为query,比对到Hiseq数据的longest Contigs,结果与基因分析中长读长作为数据集的结果一致(Fig.7c 和Fig.7d)。
通过结合RNA-Seq和Iso-Seq,开发的针对无参考基因组的HySeMaFi分析流程,在转录组分析中,可挖掘更多基因可变剪接形式及精确定量Isoform的表达。
基于长读长的转录组研究优势日益凸显,在对已知基因序列的补充注释,新的可变剪接形式分析、APA分析、融合基因和LncRNA的发现中发挥着越来越重要的作用。
未来组的全长转录组学研究,不仅包含PacBio SMRT技术,也已推出基于Nanopore的direct RNA测序技术,开启转录组学研究新纪元(技术详情请见Nature methods 文章关于direct RNA测序的测评解读),我们有丰富的全长转录组项目经验,针对特定项目,对分析流程进行优化,以期为不同领域的研究者提供更为完善的解决方案。
参考文献
[1] Park E, Pan Z, Zhang Z, et al. The Expanding Landscape of Alternative Splicing Variation in Human Populations[J]. The American Journal of Human Genetics, 2018, 102(1): 11-26.
[2] Abdel-Ghany S E, Hamilton M, Jacobi J L, et al. A survey of the sorghum transcriptome using single-molecule long reads[J]. Nature Communications, 2016, 7:11706.
[3] Olson A, Bo W, Ware D, et al. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing[J]. Nature Communications, 2016, 7:11708.
[4] Wang M, Wang P, Liang F, et al. A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulation[J]. New Phytologist, 2017, 217(1):163-178
[5] Ning G, Cheng X, Luo P, et al. Hybrid sequencing and map finding (HySeMaFi): optional strategies for extensively deciphering gene splicing and expression in organisms without reference genome[J]. Scientific Reports, 2017, 7:43793.
图片来源于网络|侵删