项目文章||药用植物黄芩全长转录组研究

2019年9月9日青岛农业大学生命科学学院与中国医学科学院药用植物研究所在International Journal of Molecular Sciences杂志发表题为“Hybrid Sequencing of Full-Length cDNA Transcripts of the Medicinal Plant Scutellaria baicalensis” 的研究文章。该研究对中药黄芩进行了全长转录组混合测序,获得了大量高精度全长转录本,为进一步开展黄芩的育种、活性成分的生物合成等分子生物学研究奠定了坚实的遗传学基础。青岛农业大学生命科学学院高婷为第一作者,中国医学科学院药用植物研究所孙超为通讯作者,武汉未来组承担了该研究的全长转录组测序及部分分析工作。
黄芩(Scutellaria baicalensis)唇形科黄芩属,是一种著名的中药,能合成独特的具有消炎、抗菌和抗癌活性的多种黄酮类化合物——黄芩甙(baicalin)、黄芩素(baicalein)、汉黄芩素(wogonin)等。关于药用植物黄芩的黄酮类生物合成途径,仍有许多问题尚未解答,例如关键基因中是否存在各种可变剪接模式?哪种剪接模式导致成分的活性和功能更好,并直接调节黄酮类化合物?

本研究利用混合测序技术研究黄芩的全长转录组,首先采用PacBio Sequel平台对黄芩根,茎和叶高质量RNA混合样本进行全长转录组测序,共获得338,136个全长非嵌合(FLNC)reads,占总reads数的93.3%,使用二代数据进行去冗余和校正后,产生了75,785个非冗余转录本,其中约98%被注释为编码蛋白质的mRNA,并且11,135个转录本被归类为IncRNA。

图1 实验分析流程

差异表达基因筛选分析发现与黄酮类生物合成相关的大多数基因(如PB22530.1)在黄芩根中高表达(图2),表明黄芩黄酮类化合物主要在根中合成,这与以往的研究一致。

图2 差异表达基因分析

在可变剪接分析(AS)中,共检测到4471个AS事件,其中内含子保留(IR)事件占比最高,达44.5%(图3)。

图3 AS事件分类

进一步分析,发现与类黄酮生物合成相关的五个关键基因中观察到94个AS事件。通过PCR确认了一些AS事件的真实性,结果显示异构体在其UTR或CDS区域表现出差异(图4),表明AS可能在S.baicalensis的转录后水平上调节黄酮类生物合成。

图4 黄酮类生物合成相关关键基因的AS预测和PCR验证

本研究通过混合测序技术研究了黄芩的全长转录组,不仅为黄酮类化合物生物合成中AS的调控提供了新的见解,而且为进一步探索其在黄芩中的功能基因组学提供了宝贵的遗传资源。

ONT Ultra Long与“Telomre to Telomere”的风云际会:首个人类X染色体完成图与甲基化图谱发布

以基因组完成图为参考基因组是动植物基因组和医学遗传学研究者们孜孜以求的终极目标之一。而人类基因组完成图则有望帮助我们加深对染色体功能和人类疾病的理解,对基因组变异的全面了解将改善目前使用短读取映射到参考基因组的生物医学中的驱动技术(例如RNA-seq,ChlP-seq,ATAC-seq)。在人类基因组测序组装发展历程中,科学家们陆陆续续发布一系列参考基因组版本。2001年人类基因组计划公布了首个人类参考基因组[1],2009年,基因组参考联盟(GRC)发布了人类参考基因组版本GRCh37。2013年人类参考基因组第20个版本——GRCh38发布,在当时被认为是世界上测序最精确的人类基因组,不断修修补补中使用至今。事实上,人类基因组尚未解决的区域还有很多,包括着丝粒周围Mb级别的微卫星区域,近端着丝粒短臂上的rDNA区域,长达几百Kb的片段重复,超过98%一致性的旁系同源基因等。因此,在人类基因组领域,Telomere-to-Telomere的完整组装是实现人基因组完成图的一个关键步骤。

近日发表在bioRxiv上的一项研究,利用Nanopore ultra-long、PacBio、10X Genomics等多种测序技术,组装出首个端粒到端粒的人类X染色体完成图和甲基化图谱,向重建完整的人类参考基因组完成图迈出了关键的一步。

材料与方法

本研究选用的测序材料为CHM13hTERT细胞系,该细胞系来自于一个经过减数分裂后染色体复制的精子,每条染色体都有两个完全相同的拷贝,因此没有任何等位基因变异,这与GRCh38的取材策略一致。光谱核型分析表明该细胞系核型为46,XX,无明显染色体异常。
CHM13基因组纯三代组装

基因组组装中重复的解决依赖于长度足以跨越重复区域的测序read,最近的研究表明利用5× Nanopore ultra-long read显著提升了组装基因组的连续性[2]。根据前人的研究进展,研究者推测高覆盖度Nanopore ultra-long测序将使人类染色体的第一次完整组装成为可能。

因此,研究者利用MinION测序仪获得了155 Gb 约50×覆盖度的Nanopore ultra-long数据,其中一半数据量的read长度在70Kb以上,最长达1.04Mb。取其中39×ultra-long数据与70×PacBio数据用Canu软件进行初步组装,获得基因组大小为2.9Gb, NG50为75Mb,超过了参考基因组GRCh38的56Mb。随后按照read长度从长到短的顺序进行迭代Polish,通过单独分析10X Genomics和Bionano数据来确定可能的组装错误,然后利用光学图谱排序定位,通过比对人类参考基因组将Contig分配至染色体。最终组装出2.94Gb的CHM13基因组,包含590个Contig,NG50达72Mb,估计共有序列准确度中值>99.99%,一些染色体被两条Contig覆盖,仅在着丝粒处发生断裂(图2a,chr10, chr12, chr18, etc.)。

图2 CHM13全基因组组装与验证

研究者采用先前测序的CHM13 BAC 文库(VMRC59 library)来评估组装基因组完整性,在总共341个BAC克隆中,有280个克隆99.5%以上的序列比对至本文CHM13基因组,明显优于其他近期发布的人类基因组(表1)。当用作调用其他基因组中的结构变体的参考序列时,CHM13表现出insertion和 deletion调用平衡,而GRCh38 则表现出deletion调用偏倚。并且GRCh38的inversion数量是CHM13的两倍,表明现有参考基因组可能存在一些定向错误。因此,在连续性、完整性和正确性方面,CHM13组装超过了所有之前公布的人类基因组,包括当前人类参考基因组的一些质量指标。

表1 CHM13组装统计及按照连续性排序的人类参考基因组

X染色体端粒至端粒组装

初始组装出的X染色体有三个断点,分别是着丝粒区域和两个>100Kb的片段重复(图2b),利用完全跨越重复区域的Ultra-long read手动解决了两个片段重复断点。通过构建着丝粒DXZ1 中~2Kb重复单元标记索引,引导Ultra-long read跨越整个2.8Mb的着丝粒卫星阵列,PFGE Southern blot实验和ddPCR实验结果与预测组装结果相符(图3a,b,c)。进一步验证,发现DXZ1与PacBio HiFi数据结构变异频率高度一致(图3a,d),表明该X染色体的组装具有极高的连续性和结构准确性。

通过构建21-mer短特异序列标记确定长read在X染色体的位置,从而执行精细的Polish程序,以达到最大的碱基精度(图3d,e,f)。

最终,研究者获得了完整、无Gap、估计精度达99.99%的X染色体,解决了29个参考Gap,总长达1,147,861 bp的N碱基。长read和光学图谱比对表明X染色体覆盖均匀无结构错误(图3e)。初始组装质量较低的区域,在精细Polish后也得到了解决(图2c,d)。

图3 X染色体2.8Mb着丝粒区域验证

X染色体CpG甲基化分析

独特的锚定Ultra-long read提供了一种新的方法来分析重复区域上的甲基化模式,这些重复区域通常很难用短读序列检测到。研究者观察到位于X染色体臂两端的大部分伪常染色体区域(PAR1,2)甲基化水平降低(图4a),在DXZ4阵列区域也发现明显的甲基化条带,这与其独特的空间结构相一致(图4c)。有趣的是在着丝粒DXZ1上发现了一段甲基化水平降低区域(图4b),并且在8号染色体D8Z2上得到了验证。这进一步证明了Ultra-long read比对策略能够提供碱基水平染色体范围的DNA甲基化图谱。

图4 全染色体CpG甲基化分析

总结

该研究在现有技术水平下利用Nanopore ultra-long 测序组装出了第一条完整的端粒到端粒人类染色体,CHM13基因组的其他染色体仅包含一些缺口,可以作为构建完整人类染色体的基础。本研究中最大的亮点是Nanopore ultra-long read的应用,提升基因组组装连续性,跨越上百Kb的片段重复,在重复单元标记引导下跨越2.8Mb的着丝粒区间,以及提供碱基水平染色体范围的DNA甲基化图谱。

武汉未来组自成立以来致力于三代测序技术应用与服务,自2017年搭建Oxford Nanopore测序平台便开始ONT ultra-long测序的研发工作,并于2017年底推出ONT ultra-long测序服务,目前已经完成数十个物种的ONT ultra-long测序工作,下机read N50突破100Kb,处于行业领先地位!欢迎体验未来组ONT ultra-long测序服务,助您迈入基因组完成图时代!

参考文献:

[1] International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome[J]. nature, 2001, 409(6822): 860.

[2] Jain M, Koren S, Miga K H, et al. Nanopore sequencing and assembly of a human genome with ultra-long reads[J]. Nature Biotechnology, 2018, 36(4).

未来组项目文章||Nanopore+Hi-C再发力,揭示“断肠草”染色体水平基因组

2019年8月16日,湖南农业大学动物医学院,湖南省兽药工程技术研究中心孙志良教授和刘兆颖副教授课题组与武汉未来组合作的钩吻基因组项目文章以“Whole-genome sequencing and analysis of the Chinese herbal plant Gelsemium elegans”为题,在线发表于Acta Pharmaceutica Sinica B (IF=5.808)期刊。研究者利用Nanopore平台对钩吻进行全基因组测序,结合Hi-C技术组装出染色体水平的高质量参考基因组,该研究成果的发布为钩吻属比较基因组研究提供了重要信息。

钩吻(Gelsemium elegans)别称断肠草、大茶药等,其含有的钩吻素是很强的神经抑制剂,能使人因呼吸麻痹而死,传说“神农尝百草”就是因误食钩吻(断肠草)而死。但是,钩吻也有其独特的药用价值,它作为一种治疗类风湿性关节炎、神经性疼痛等疾病的中草药已使用多年。并且小剂量地使用在畜禽时却有促进生长的作用,《本草纲目》记载:“断肠草人误食其叶者致死,而羊食其则大肥”。尽管钩吻具有相当重要的药用价值,但该物种基因组信息十分有限。

研究思路
对取自广西柳城的钩吻植株叶片进行Nanopore测序(160×),利用短读长技术进行钩吻的基因组调研、Hi-C测序以及根、茎、叶花等组织的转录组测序。
基因组装
利用二代测序数据进行基因组调研分析,预测钩吻基因组大小约338.03 Mb,杂合度约0.38%。Nanopore测序过滤后数据为53.45 Gb。采用Canu+WTDBG+Pilon的组装策略,最终获得335.13 Mb的基因组,与预测基因组大小相近,contig N50高达10.23Mb(表1)。
表1钩吻基因组组装结果
为了进一步提升组装质量,利用LACHESIS软件对Hi-C数据进行聚类、排序和定向,将contig序列挂载到8条染色体上,挂载率为99.2%,scaffold N50达40.47Mb。BUSCO数据库评估该基因组完整性为92.9%。
基因组注释
基于同源比对和de novo预测表明该基因组含有43.16%的重复序列,其中以长末端重复序列最多,占23.9%。通过de novo预测、同源比对预测并结合RNA-seq数据集,共预测基因26,768个,其中注释到功能的基因有22,636个(84.56%)(表2)。
表2 钩吻基因组注释结果
系统发育树的构建和分化时间估计
为了研究钩吻的进化地位,研究者将其基因组与其他8种植物的基因组序列进行了比较,其中包含3种能产生生物碱的植物(Calotropis gigantea, Camellia sinensis 和 Macleaya cordata),来自同一双子叶分支的3种不同植物(Arabidopsis thaliana, Brassica rapaVitis vinifera)以及2个单子叶植物(Oryza sativa  Oropetium thomaeum)作为外群。
系统发育分析表明相比茶树(C. sinensis,),牛角瓜(C. gigantea)与钩吻有更紧密的进化关系,这支持了前人的假设。钩吻与茶树的分化约在97.45 Mya,与牛角瓜的分化约在50.69 Mya(图2)。
图2 9种植物的系统发育树
全基因组复制和基因家族扩增分析
利用四重兼并性位点颠换率(4DTv)和Ks估计来检测钩吻组装基因组中的全基因组复制事件(WGD)。结果表明钩吻只经历了古老的全基因组复制事件,而没有现代WGD事件(图3)。OrthoMCL基因家族分析方法揭示了钩吻谱系中509个扩增基因家族和1013个收缩基因家族。
图3  5种植物的全基因组复制(WGD)事件
总之,本研究利用Nanopore+Hi-C技术组装了高质量的钩吻基因组,报道了该基因组的注释、进化等信息。本研究产生的高质量基因组将钩吻的相关研究带入新的水平,为钩吻的遗传改良和药用功能研究提供宝贵的信息和参考依据。该论文第一作者为柳亦松副教授,唐其副教授与程辟副教授为论文共同第一作者,论文通讯作者是孙志良教授与刘兆颖副教授。
钩吻是继赤点石斑鱼后,武汉未来组利用Nanopore+Hi-C策略组装的又一个高质量基因组。这两个案例充分表明了利用Nanopore测序技术的长读长在动植物基因组组装方面的巨大优势。武汉未来组自2017年搭建Oxford Nanopore测序平台以来,已经利用该技术完成600余个动植物基因组的测序和组装,凭借丰富的Nanopore测序经验,未来组将继续助您打造高质量的三代参考基因组,冲击高分文章!

未来组ONT文章||赤点石斑鱼染色体水平基因组发表

2019年7月20日福建省水产研究所与武汉未来组生物科技有限公司合作项目以“De novo Assembly of a Chromosome-Level Reference Genome of Red Spotted Grouper (Epinephelus akaara) Using Nanopore Sequencing and Hi-C”为题,发表在Molecular Ecology Resources(IF=7.049)期刊。福建省水产研究所黄种持研究员、郑乐云教授级高工,武汉未来组胡江,以及集美大学王艺磊教授为共同通讯作者,福建省水产研究所葛辉博士、林克冰研究员,武汉未来组申蜜为共同第一作者,刘雷为共同作者。该研究利用Nanopore测序和Hi-C技术获得了赤点石斑鱼染色体水平的高质量参考基因组,组装基因组大小为1.135 Gb,contig N50为5.25Mb,scaffold N50 达46.03 Mb。该高质量基因组为赤点石斑鱼的分子育种和功能基因组学研究提供了宝贵资源。同时,该研究也表明Nanopore测序产生的长读长序列可以有效提高基因组组装的连续性和完整性。

图1 文章发表信息

研究背景

赤点石斑鱼(Epinephelus akaara)属于辐鳍鱼纲(Actinopterygii)鲈形目(Perciformes)鲈亚目(Percoidei)鮨科(Serranidae),是中国、日本和东南亚最具经济价值的重要海洋鱼类之一。由于过度捕捞、食物来源减少、环境污染等导致赤点石斑鱼数量大减,已被列为濒危物种。同时,赤点石斑鱼雌雄同体,雌性先熟,是研究性别倒置,发育,遗传多样性和免疫的良好模型。但是,赤点石斑鱼分子水平的研究却有限,迄今尚未有参考基因组。

图2赤点石斑鱼

基因组组装

利用二代测序数据进行基因组调研分析,预测赤点石斑鱼基因组大小约1,111 Mb,杂合度约0.375%。利用Nanopore GridION X5测序仪对一尾成年雄性赤点石斑鱼(NCBI taxonomy ID: 215347)进行测序,过滤后获得106.29Gb的数据,read平均长度为18.35kb,readN50为26kb。采用Canu+Nanopolish+Pilon的组装策略,获得1.135Gb的基因组,与预测基因组大小相近,contig N50为5.25Mb。

为了进一步提升组装质量,研究者测序了112.83Gb的Hi-C数据,过滤后共有26294万个配对末端序列唯一映射到组装基因组的DpnII切割位点侧翼,随后利用LACHESIS软件进行聚类、排序和定向,将2,055 个contig序列挂载到24条染色体上,挂载率为95.55%,scaffoldN50 达46.03Mb(表1)。BUSCO数据库评估该基因组完整性为96.8% 。

基因组注释

基于Repbase和de novo repeat库,预测该基因组含有43.02%的重复序列,其中以DNA转座子类型的的重复序列最多,占16.73%(表2)。

通过de novo预测、同源比对预测并结合RNA-seq数据集,共预测基因23,923个(表3),其中注释到功能的基因有23,808个(99.5%)。

赤点石斑鱼的各项指标以及完整性均优于5月份发表的黑色石斑鱼参考基因组,可见采用Nanopore+Hi-C策略进行基因组组装优势明显。

表4 赤点石斑鱼与黑色石斑鱼基因组组装比较

本研究利用Nanopore测序技术的长读长优势结合Hi-C技术,组装出高质量赤点石斑鱼染色体水平的参考基因组,这一组装结果表明Nanopore测序产生的长读长序列可以有效地用于基因组组装,并显著提升基因组组装质量。对一个物种而言,完整的高质量的基因组序列是其广义研究中不可估量的宝贵资源,并且是基因组学、基因功能、分子和进化研究的坚实基础,基因组参考序列的质量在一定程度上也体现了该物种的研究进展和水平。

2019上半年武汉未来组高分文章展示

2019年转眼间已经过半,未来组三代测序项目成果也接连不断,今天组学君就给大家带来2019上半年未来组三代测序项目的8篇高分文章,累积IF达101.775涵盖动植物基因组、转录组、微生物基因组、表观遗传研究等各个领域,为您提供三代测序应用的高分文章思路。

01

栽培花生基因组揭示豆科核型,多倍体进化及作物驯化的秘密
Nature Genetics,01 May 2019IF=25.455

合作单位:福建农林大学

栽培种花生(Arachis hypogaea L.)为异源四倍体(AABB,2n= 4x = 40),亚基因组之间的密切关系和高比例的重复序列增加了栽培花生基因组的组装难度。

本研究以狮头企花生为材料,采用三代测序技术,结合Hi-C技术和高密度遗传图谱等完成了异源四倍体花生栽培种A、B亚基因组共20条染色体的精确组装,获得高质量的参考基因组。

比较基因组分析表明花生B亚基因组具有更多的基因和普遍的表达优势,52份种质材料的重测序分析表明花生可能起源于不同的subsp. hypogaea并且在不同地点独立驯化,同时,作者也对A亚基因组的真正起源提出了疑问。

02

高质量苹果基因组解析红色果实着色机制

Nature Communications,02 Apr 2019

IF=11.878

合作单位:中国农业科学院果树研究所

苹果基因组是苹果遗传研究和分子育种的基础,可推动苹果的可持续生产。尽管早前发布的高质量金冠(Golden Delicious)基因组使苹果育种研究取得了一些进展,但仅仅利用这些数据在发现新基因和描述基因组结构变异方面仍存在一些局限性。

本研究以来源于花药的苹果纯合系HFTH1为材料,采用三代PacBio测序技术,结合光学图谱Bionano和Hi-C技术辅助组装,获得高质量苹果基因组图谱(contigN50为6.99Mb,GDDH13基因组contigN50为620kb)。

比较基因组结果表明,TEs的动态变化可导致产生大量的SVs,这可能会对基因型产生影响。进一步研究证实了上述推测,研究者发现花青素生物合成的核心转录激活因子MdMYB1上游UTR区域的一个LTR反转录转座子的插入与果实红色相关联。

本研究的高质量参考基因组对GDDH13基因组进行了补充,可精确识别大的和复杂的SVs,同时,为苹果独特的生物学特征的比较基因组研究和种类基因组多样性研究奠定基础。

03

质粒编码的tet(X)基因在大肠杆菌中具有高水平的替加环素抗性

Nature Microbiology,24 Jun 2019

IF=14.300

合作单位:华南农业大学兽医学院

细菌耐药性一直是微生物研究的重点领域,随着碳青霉烯类药物和黏菌素耐药性的爆发,替加环素成为治疗多重耐药细菌感染的最后一道防线。

本研究发现了一个质粒介导的可移动的替加环素耐药基因tet(X4),将该基因转入到大肠杆菌能显著增强其对所有四环素类抗生素的耐药性。而且,包含tet(X4)基因的IncQ1质粒具有高效转移能力,这极大地增加了该耐药基因的传播风险。

研究者进一步探讨了tet(X4)阳性大肠杆菌在中国人群、家禽家畜及其周边环境中的流行情况,提出“one-health”策略,即通过对人类、动物及其生活环境进行跨部门监测和控制来应对抗生素耐药性,同时呼吁人们在动物和环境中合理使用四环素。

04

利用深度循环神经网络对牛津纳米孔测序数据进行DNA碱基修饰检测

Nature Communications,04 Jun 2019

IF=11.878

合作单位:费城儿童医院,中山大学中山眼科中心

深度循环神经网络广泛应用于人工智能领域,如手写识别、语音识别等序列特征建模。

研究者采用LSTM-RNN深度循环神经网络作为深度学习框架,采取两种独立的策略利用多个Nanopore测序数据集进行训练和校正,完成了5mC和6mA检测模型的建立。

该研究为Nanopore应用于表观修饰领域提供了重要的软件工具—DeepMod。首次将5mC的准确率提高到99%,实现了5mC的精准检测;首次建立了原核和真核通用6mA和5mC检测方法;并建立了首个Nanopore真核生物6mA修饰标准集。

05

染色质构象捕获技术解析糜子基因组近完成图

Nature Communications,25 Jan 2019

IF=11.878

合作单位:中国农业大学

糜子(Panicum miliaceum L.)作为一种古老的作物,具有生长周期短(~60–90d),耐盐碱的特性,尤其是极端抗旱,其耐旱能力甚至比蒸腾系数低于高粱、玉米、小麦的谷子还要强。

本研究结合了三代长读长测序技术、二代短读长测序技术、Bionano光学图谱、Hi-C染色体构象捕获等技术优势,获得了高质量的糜子基因组,通过对糜子基因组的深度挖掘,研究者揭示了糜子基因组中与抗生物胁迫和非生物胁迫的可能相关基因。系统发育分析揭示了糜子的异源四倍体化发生在591万年之内,而糜子和谷子的分化大约发生在1310万年前。

高质量糜子基因组序列不仅对理解糜子基因组四倍体化后的动态进化具有重要意义,而且对今后的糜子分子育种也有一定的参考价值,并将促进黍属植物与其他作物的比较基因组研究。

06

形态学和基因组学解析马里亚纳海沟狮子鱼深海适应性机制

Nature ecology & evolution,16 Apr 2019

IF=10.965

合作单位:中科院深海科学与工程研究所,水生生物研究所,西北工业大学生态与环境保护研究中心

本研究以生活在马里亚纳海沟6,000m深处以下的狮子鱼Pseudoliparis swirei为研究对象,通过形态学、基因组和转录组等多种分析手段揭示了马里亚纳海沟狮子鱼深海适应性的形态、生理变化及分子机制。

形态学观察发现,P. swirei具有一系列适应深海生活的形态特征,如透明的皮肤,膨大的胃部,不完全骨化的骨骼以及非闭合性颅骨。基因组分析显示P. swirei在骨骼发育、细胞膜流动性、蛋白质稳定性存在深海适应性基因突变。

本研究中发现的众多遗传变化揭示了脊椎动物物种如何在深海中生存和繁衍,提供了对脊椎动物的形态,生理和分子进化新的见解。

07

纳米孔测序技术揭示染色质调控基因表达的基础

Genome Research,14 Jun 2019

IF=9.944

合作单位:美国俄亥俄州立大学

核小体的动态占据导致两种不同的染色质状态:“开放”(具有稀疏核小体的活跃基因组区域)和“闭合”(具有致密核小体的不活跃基因组区域)。核小体的占据和染色质开放状态的动态变化在转录、DNA复制和修复中起重要的调节作用。

本研究提出的一种新的实验方法MeSMLR-seq,实现了在长距离-单个核苷酸分子水平进行核小体和染色质状态测定,为基因表达的染色质调控研究提供了一个有力工具。

研究者利用MeSMLR-seq的独特序列,揭示了转录起始位点周围沉默基因和活跃基因具有差异的核小体组织原则。利用多个基因组区域的染色质状态与单细胞RNA-seq数据一起,揭示了转录重编程过程中相邻基因的染色质偶联变化。

08

5’-Cap捕获的Direct RNA测序揭示Piwi对蝗虫体内TE衍生序列的影响

RNA Biology,14 Apr 2019

IF=5.477

合作单位:中科院北京生命科学研究院,中科院动物研究所,中国科学院大学

Nanopore 长读长Direct RNA测序不需要经过反转录可获得完整的RNA转录本。

本研究通过 5’-Cap捕获的方法富集全长RNA转录本,利用Nanopore对RNA直接进行测序,以天然RNA形式描述飞蝗全长转录本特征。研究者分析了蝗虫转录中TE外显子化模式,揭示了TE外显子化的广泛建立以及蝗虫转录组中TEs对RNA剪接的重要作用。

该研究结果证明了5’-Cap捕获法的Direct RNA测序在描述包含重复序列的全长RNA转录本中具有重要作用。这是国内Direct RNA测序相关研究成果的首次亮相,武汉未来组承担了Direct RNA的建库测序工作。

未来组项目文章||三代测序助力发现替加环素耐药基因

2019年6月24日,华南农业大学兽医学院刘雅红教授团队在微生物学领域顶级期刊Nature Microbiology(IF=14.300)发表题为“Plasmid-encoded tet(X) genes that confer high-level tigecycline resistance in Escherichia coli”的研究成果。该研究发现了一个质粒介导的可移动的替加环素耐药基因tet(X4),将该基因转入到大肠杆菌能显著增强其对所有四环素类抗生素的耐药性。而且,包含tet(X4)基因的IncQ1质粒具有高效转移能力,这极大地增加了该耐药基因的传播风险。华南农业大学兽医学院孙坚教授和博士生陈冲为本研究论文共同第一作者,刘雅红教授、廖晓萍教授和美国Hackensack-Meridian探索与创新健康中心陈亮教授为本论文的共同通讯作者,武汉未来组承担了本研究中全部三代测序的建库、测序工作。

研究背景

细菌耐药性一直是微生物研究的重点领域,肠杆菌科细菌耐药性的出现和蔓延对人类和动物的健康构成了严重威胁。碳青霉烯类药物、黏菌素和替加环素被认为对多重耐药的革兰氏阴性细菌有效,然而随着碳青霉烯类药物和黏菌素耐药性的爆发,替加环素成为治疗多重耐药细菌感染的最后一道防线。

替加环素的耐药性不可避免的出现,四环素破坏酶Tet(X)具有一种独特的酶促四环素失活机制,研究已证实Tet(X)在体外对包括替加环素在内的所有四环素有降解活性,然而其分布、遗传结构和临床意义仍有待探索。在本研究中,作者描述了一个质粒介导的可移动替加环素耐药基因tet(X4),并探讨了tet(X4)阳性大肠杆菌在中国人群、食用家禽家畜及其周边环境中的流行情况(图1)。

图1 中国tet(X4)样品抽样区域图

主要结果

1、tet(X4)特征研究

研究者2017年从猪粪中分离到一株具有替加环素耐药性的大肠杆菌菌株LHM10-1,全基因组测序结果表明LHM10-1的序列类型属于ST515,包含一条4.81Mb的染色体和6个质粒。其中在pLHM10-1-p6质粒上发现了一个全长1158 bp 编码385个氨基酸(图2a)的tet(X)-like基因,命名为tet(X4)。基因克隆实验、平板扩散分析以及四环素降解实验均证明Tet(X4)蛋白能够对整个四环素家族产生耐受性(图2b,c,d)。体内实验表明tet(X4)阴性菌株感染小鼠对替加环素处理高度敏感,而替加环素对tet(X4)阳性菌株感染的小鼠治疗24小时后无明显影响(图2e),由此推测,tet(X4)基因的存在可能是导致替加环素治疗失败的原因之一。

图2 Tet(X4)在体内外对四环素的作用

2、pLHM10-1-p6质粒特征分析

对包含tet(X4)序列的质粒pLHM10-1-p6分析表明,该质粒属于宽宿主范围的IncQ1类质粒,与其他IncQ1质粒比较,它们共享类似的序列区域(图3)。进一步实验发现,可以将替加环素耐药性从大肠杆菌LHM10-1转移到多种实验室菌株中;连续220世代无抗生素培养后,pLHM10-1-p6质粒仍然在不同菌株中稳定存在,表明tet(X4)具有很高的可转移性和稳定性。这也使得质粒pLHM10-1-p6在临床耐碳青霉烯类肠杆菌(CRE)菌株上也表现出良好的转入能力,这些结果暗示:质粒介导的可移动的替加环素耐药基因tet(X4)有可能产生真正的泛耐药菌株,从而导致感染无药可治。

图3 携带tet(X4)基因的pLHM10-1-p6质粒特征

3、tet(X4)阳性菌株的流行情况

本研究从4,189个不同地区和来源的样本中共检测到42个菌株携带tet(X4)基因,这些阳性大肠杆菌分离株在中国东部和南部5个省均有发现(图1)。药敏试验表明,42个tet(X4)阳性菌株全部具有对替加环素、四环素、磺胺甲恶唑-三甲氧苄啶和氟苯尼考的耐药性。质粒分析发现57.1%(24/42)的tet(X4)阳性菌株含有相同的IncQ1类型的pLHM10-1-p6-like质粒。在自传播辅助质粒存在下,IncQ1类型质粒能够转移到广泛的细菌宿主中。携带tet(X4)基因的pLHM10-1-p6-like质粒在转移的过程中,常见的携带mcr-1(一种粘菌素抗性基因)的质粒可以作为其辅助质粒,这进一步促进了替加环素耐药性的传播。

讨论

以上研究表明tet(X4)基因导致的替加环素耐药性菌株可能已经在中国传播,作者推测这种新型可移动替加环素耐药性菌株的出现,很有可能是一代或二代四环素的使用导致的。在中国,替加环素只被批准用于治疗人类的临床感染,第一代和第二代四环素被广泛用于治疗食用家禽家畜的感染治疗或者促生长使用,这很可能为替加环素耐药菌的出现提供了选择压力。来自环境、兽医使用以及临床实践的持续选择压力将可能加速tet(X4)等抗性基因的传播。因此,作者强调采用“one-health”策略,即通过对人类、动物及其生活环境进行跨部门监测和控制来应对抗生素耐药性,同时呼吁人们在动物和环境中合理使用四环素。

未来组项目文章||纳米孔测序技术揭示染色质调控基因表达的基础

2019年6月14日,美国俄亥俄州立大学的区健辉(Kin Fai Au)博士团队在Genome Research(IF=9.944)杂志在线发表题为“Single-molecule long-read sequencing reveals the chromatin basis of gene expression”的研究论文,该研究提出一种新的实验方法MeSMLR-seq(methyltransferase treatment followed by single-molecule long-read sequencing)外源甲基转移酶处理后进行纳米孔测序,从而实现在单个核苷酸分子水平进行核小体和染色质状态的长距离测定。区健辉课题组的王运浩博士和王安琪博士为共同第一作者,武汉未来组承担了其中的ONT建库、测序工作。

图1 文章信息

研究背景

在真核生物中,细胞面临遗传信息存储和包装问题。DNA作为遗传信息的载体,通过缠绕组蛋白八聚体(H2A, H2B, H3和H4)形成染色质的基本单元——核小体。核小体由”linker DNA”连接伸长,核小体的动态包装导致两种不同的染色质状态:“开放”(具有稀疏核小体的可访问和活跃基因组区域)和“闭合”(具有致密核小体的不可访问和不活跃基因组区域)。核小体的配置和染色质开放状态的动态变化在转录、DNA复制和修复中起重要的调节作用。

文章简介

基于第二代“短读长”测序技术或单细胞测序技术的方法可以在群体或单细胞水平检测核小体配置和染色质开放状态,但是无法提供复杂的长距离核小体配置和染色质开放状态的异质性信息。牛津纳米孔测序技术(Oxford Nanopore Technologies,ONT),利用碱基穿越纳米孔时产生的原始电信号信息在单分子水平检测DNA修饰,无需PCR扩增和亚硫酸氢盐转化,并且极大地增加了测序的长度。因此,ONT测序read可以覆盖多个核小体的组合和跨越多个基因组元素的不同染色质状态。

本研究利用ONT测序的长read序列和丰富的单碱基原始信息,开发了MeSMLR-seq方法(图2)和相应的生物信息学工具NP-SMLR,来研究长距离核小体配置和染色质开放状态的异质性及动态变化。

图2 MeSMLR-seq 流程

主要结果

研究者首先对酵母基因组中的核小体配置进行单个DNA分子水平的检测和定相,在不同核小体覆盖度下的检测均能达到80%准确度,表明了MeSMLR-seq对核小体单分子远程比对的准确性和稳健性(图3)。在单细胞水平检测发现,单个MeSMLR-seq读数跨越长距离范围,可以测定多个核小体(中位数为37),因此,MeSMLR-seq可捕获DNA分子中核小体占有率的动态性和异质性。

图3 利用MeSMLR-seq数据进行5mC检测和核小体占有率检测

转录起始位点在转录调控中有重要作用,MeSMLR-seq揭示了其周围沉默基因和活跃基因的差异核小体组织原则。对于转录沉默的基因,在一个细胞群体中核小体配置具有更大的异质性;而对于转录激活的基因,核小体的间距分布具有更高的一致性(图4)。

图4 转录起始位点周围沉默基因和活跃基因的差异核小体组织原则

进一步研究表明基因表达与染色质开放状态之间呈正相关关系,随后进行了单分子染色质开放状态长距离比对性能的评价,结果表明MeSMLR-seq能够分析相邻基因的偶联染色质状态,检测细胞群中染色质状态的异质性。最后,对两个相邻的葡萄糖转运蛋白基因的染色质偶联状态变化研究表明,Open-HXT3与Closed-HXT6耦合模式的细胞亚群比例随葡萄糖浓度降低而降低,而Closed-HXT3 and Open-HXT6耦合模式的则相反(图5)。

图5 HXT6HXT3基因的染色质开放状态与共表达之间的“偶联”关系

小结

综上所述,本研究提出的一种新的实验方法MeSMLR-seq,实现了在长距离-单个核苷酸分子水平进行核小体和染色质状态测定,为基因表达的染色质调控研究提供了一个有力工具。本研究利用MeSMLR-seq的独特输出,对转录起始位点周围核小体的组织规则以及组合的异质性进行了研究。最后利用多个基因组区域的染色质状态与单细胞RNA-seq数据一起,定量研究了染色质开放状态与基因转录之间的关系,揭示了转录重编程过程中相邻基因的染色质偶联变化。

未来组合作文章再登Nature Genetics||四倍体栽培种花生基因组揭示豆科核型,多倍体进化及作物驯化的秘密

由福建农林大学牵头,联合武汉未来组及国内外二十多家科研机构在国际上率先完成了四倍体花生栽培种的全基因组测序工作,研究成果“The genome of cultivated peanut provides insight into legume karyotypes, polyploid evolution and crop domestication ”近日发表于国际著名专业期刊Nature Genetics。福建农林大学庄伟建教授、陈华博士、武汉未来组杨猛博士,以及美国佛罗里达大学博士生导师,福建农林大学兼职教授王建平博士为并列第一作者,其中武汉未来组李净净,梁帆,胡江,全伟鹏,樊俊鹏等为共同作者。本研究以狮头企(Arachis hypogaea var. Shitouqi)花生为材料,采用三代PacBio SMRT测序为主,结合Hi-C技术和高密度遗传图谱等完成了异源四倍体花生栽培种A、B亚基因组共20条染色体的精确组装,获得高质量的参考基因组。同时,对来自12个种的52份花生进行重测序,研究结果为花生的基因组结构、生物学特征、多倍体进化及作物驯化提供了新的见解。

花生是我国重要的油料作物,富含有益于心脑血管的油酸、亚麻油酸;白藜芦醇,纤维,叶酸和蛋白质等营养物质,被称作长寿果。在我国,花生的产量大约3,649千克每公顷,其贡献的产油量占所有油料作物的46%以上,经济价值位于水稻、小麦和玉米后,位于第四位。花生属包含81个种,大多为二倍体(2n = 2x = 20),而栽培种花生(Arachis hypogaea L.)为异源四倍体(AABB2n = 4x = 40)。细胞遗传学,系统地理学和分子学证据表明,异源四倍体A. hypogaea可能是二倍体A. duranensisAA)和A. ipaensisBB)杂交形成,其基因组是野生二倍体的两倍。亚基因组之间的密切关系和高比例的重复序列增加了栽培花生基因组的组装难度。

主要结果

1. 测序、组装及注释

100x PacBio数据进行初步组装(平均读长10.25Kb),获得Contig N501.51Mb,基因组大小2.54Gb,为预估基因组的94%。接着利用Hi-C数据进行聚类、纠错、排序,将PacBio Contig挂载到20scaffoldsN50129.8 Mb,使组装结果达到了染色体水平,包含95.5%的装配序列。最后利用ALLMAPS将四个高密度遗传图谱整合为包含14,619个标记、覆盖3,264 cM的遗传图谱,并基于此对5个含有轻微组装错误的Hi-C结果进行调整,最终组装出四倍体栽培种花生的20条染色体(Chr01-Chr20,对应野生祖先A基因组的A01-A10,以及B基因组的B01-B10),总大小为2.51Gb,占总组装长度的98.75%。为了评价组装效果,与公布的花生BAC双末端测序数据、三个花生全长BAC序列比对都显示高度的一致性,另外通过二代测序数据和三代的测序数据进行了碱基水平的准确性评估和连续性评估,所有的评估结果表明了花生基因组高质量组装。

花生基因组组装统计

利用29个不同组织/条件的Illumina RNA-seqPacBio Iso-Seq数据辅助注释,在组装的Shitouqi基因组中共预测到83,709个编码蛋白基因,其中功能注释基因占76.6%。在1,440个来自BUSCO数据库的基因集中,有93.1%在组装的结果中鉴定到,表明花生基因组高质量的组装和注释结果。

从花生基因组中共鉴定到30,596个非冗余基因,24,208个同源基因对在两个亚基因组之间表现出广泛的差异表达,其中B亚组的显性表达频率高于A亚组。

2. 亚基因组结构特征

比较基因组结果表明花生栽培种B亚组与二倍体A. ipaensis一致性高于A亚组与A. Duranensis之间的一致性。共有629个基因受到基因转换的影响,有58.7% B转换为A41.3% A转换为BAB亚组之间存在较多的倒转和重组,鉴定到至少6个有明确界限的AB亚基因组之间的交换或替换,包括染色体313之间的10Mb易位。

花生亚基因组与二倍体AB基因组基因密度、重复序列共线性关系

基因组重复序列(1.97 Gb)占组装总大小的77.65%,其中反转录转座子Gypsy LTRnon-autonomousLTR分别占40.59%27.14%。重复序列分析发现大多数转座因子,特别是Gypsy LTRnon-autonomous LTR在四倍体化后发生扩增。通过完整的LTR反转座子两端的LTR序列进行比对计算碱基替代率表明A亚基因组在四倍体化后(约25万年前)经历了快速的LTR扩增,而B亚基因组和两个二倍体的LTR在四倍体化前扩增,这可能是由于功能障碍表达的普遍存在或四倍体花生中亚基因组同源染色体的缺失造成的,作者在这里提出疑问:测序的二倍体野生花生A. duranensis是否就是A亚基因组的祖先?

花生及其二倍体祖先的重复序列扩增

豆类植物共有的四倍化(legume-common tetraploidyLCT;约5900万年前),以及主要双子叶植物共有的六倍化(core-eudicot-common hexaploidyECH;约1.3亿年前)痕迹保留在花生基因组中。作者利用保留有Post-ECHpost-LCT的普通豆类基因重建了16条原始豆类染色体(称为Lu),与现存的豆类基因组进行比较并绘制了花生与其他豆类的核型进化图,推断花生染色体的形成过程。花生祖先染色体A1A3A4A5A6A7Lu染色体经过6次融合造成染色体数目减少的片段组成;而A2A8A9A10由两条Lu染色体的交叉互换产生;从A基因组分离以后,B基因组内的交叉互换形成了其特有的78号染色体。

3. 亚基因组含量变化

与二倍体花生A. duranensisA. ipaensis相比,四倍体花生亚基因组A(37,059 genes)和B(46,650 genes)分别有0.88%和12.46%的扩张,在AB基因组二倍体中鉴定的24,380个同源基因家族中,90.68%在四倍化后仍旧保留。四倍体花生、野生A基因组和野生B基因组中的生长素响应因子(ARF)分别有1142828个,聚类为9个簇,其中Ⅰ-V仅包括四倍体花生的拷贝,同时花生含有3CYP78A6(与种子生长有关),而二倍体B基因组中仅有一个拷贝,这可能与花生籽粒大小有关。

生长素响应转录因子(ARF)家族进化树及脂肪酸代谢、氮共生途径及抗病基因染色体分布

驯化过程中同样会出现基因丢失的现象,例如四倍体花生有661NBS结构的抗病基因,总数少于A. duranensis385)和A.ipaensis428)的总和,造成四倍体花生抗病基因的减少。作者还构建了花生基因组水平的酰基脂质代谢网络和共生(SYM)信号通路基因的系统发育树,为花生品质改良及固氮研究提供支持。

4. 花生的起源和驯化

花生起源于南美洲,被认为是AB基因组A.duranensisA.ipaensis之间的杂交,与二倍体AB基因组比较,四倍体花生B亚基因组与A.ipaensis之间同源性在99.5%以上,而A亚基因组与A.duranensis之间仅有约97%的同源性。Ks 分布表明AB基因组的分化预计在260万年前,与前人报道相同,而二倍体分化产生四倍体AB基因组约在42-47万年前,要比之前认为的更古老(图5a)。

为了研究花生的起源和驯化,作者构建了52份样品(30个不同生态型异源四倍体花生,18个野生种,4个合成四倍体)的系统发育树(图5b)。系统发育树及测序数据表明野生型四倍体A.monticola形成了subsp. hypogaeafastigiata生态型,这表明花生可能起源于不同的subsp. hypogaea并且在不同地点独立驯化,例如秘鲁西北地区进化出适应干旱的生态型(图5d,箭头B),东南独立驯化产生的瓦伦西亚和西班牙生态型在世界范围传播(图5d,箭头CD)。这有别于前人预测的花生由A. monticola在阿根廷北部驯化而来。

四个合成四倍体中ISATGR 278ISATGR 5发生了全基因组的加倍,而另外两个的A基因组分别是B基因组的1.235.93倍,这可能是由于亲本染色体由于不相容而在后代中不随机保留,这进一步支持了作者的假设:存在另一个与B基因组更相容的A基因组供体,而不是A. duranensis

花生的进化历史

5. 对花生性状改良的影响

该基因组揭示了许多已被基因定位的花生重要农艺性状的候选基因。控制红色种皮的单显性基因定位到3号染色体上一段0.905cM的区间内,包含WRKYs, MYBbHLH家族以及细胞色素P450等花青素合成相关基因,这些基因的上调表达可能是红色种皮形成的原因。花生种子大小是重要的产量指标,作者利用一个重组自交系群体结合BSA分析在chr07chr12染色体上定位到两个相同的候选区段,分别包含9997个候选基因。基于高质量基因组的候选基因功能分析可以为花生种子大小调控提供许多新的信息。花生叶锈病和晚叶斑病(late leaf spot, LLS)共定位在同一基因组区域,重组自交群体抗病和感病池在Chr13染色体上显示重叠区域,进一步分析表明该区段内保守的Tir-NBS-LRR基因AH13G54010.1可能是两种病害的抗病基因。而有研究者利用二倍体A. duranensis基因组定位的叶锈病和晚叶斑病抗性区段位于Aradu.A03染色体,作者推测该区域可能是四倍化后从Chr03转移至Chr13。从含油量约40%的材料中获得了含油量高达80%的突变系,并通过重测序结合四倍体组装基因组解释了高含油量是由于ahFAD2AahFAD2B两种突变共同引起的。

种子大小、颜色和叶片抗病性的候选基因

小结

本研究以中国花生品种狮头企为材料,组装出了染色体水平的高质量花生基因组,组装基因组大小2.54 Gb,包含20条染色体和83,709个蛋白编码基因。利用该高质量基因组,对种子大小进化、种子含油量、抗病性和共生固氮等功能基因家族进行了研究。

比较基因组分析表明相比A亚基因组,花生B亚基因组具有更多的基因和普遍的表达优势,这可能与A亚基因组中LTR的扩增有关,这也引出了A基因组起源的问题,即存在另一个与B基因组更相容的A基因组供体,而不是A. duranensis

A. hypogaea和其他豆类染色体进化方面,利用普通豆类基因重建了16条原始豆类染色体(称为Lu),与现存的豆类基因组进行了比较绘制了花生与其他豆类的核型进化图,为花生染色体的形成过程提供新的思路。

在花生起源于进化方面,52份种质材料的重测序分析表明花生可能起源于不同的subsp. hypogaea并且在不同地点独立驯化。

该高质量基因组揭示了许多花生重要农艺性状的候选基因,如种子大小、颜色、叶片抗病性等,将为为后续的功能基因组学研究和花生性状改良提供有意义的线索和数据支持。

参考文献:

Zhuang WJ, Chen H, Yang M, et al., The genome of cultivated peanut provides insight into legume karyotypes, polyploid evolution and crop domestication. Nature Genetics. 2019.

相关阅读:

未来组助力完成栽培种花生三代全基因组测序,成果通过专家认证会

多平台单倍型解析方式检测人类基因组结构变异

近日欧洲分子生物学实验室、华盛顿大学医学院基因组学部以及杰克逊基因组医学实验室等多家单位,利用Illumina、PacBio、Bionano、10X Chromium、IL-SLR、Strand-seq、以及Hi-C等多平台以单倍型解析方式研究了人类基因组结构变异。相关成果以“Multi-platform discovery of haplotype-resolved structural variation in human genomes”为题发表在Nature Communications杂志。该研究是迄今为止对人类基因组结构变异最全面的评估,作者在文章中提出的方法和数据集有望成为科学界研究基因组结构变异的金标准,使将来基因组测序研究结构变异更灵敏、更全面。

结构变异(SV)在人类基因组中有各种形式,主要包括小的Indel(小于50bp),大的SV(大于50bp),染色体倒位(Inversion)、拷贝数变异(CNV)等。采用短读长高通量测序技术获得的人类基因组数据,受序列读长限制很难准确鉴定以上各种结构变异,并且大多数SV检测方法没有指出SV具体在哪一个单倍型背景中。

染色体水平定相及基因组装配

本研究采用多种先进的测序技术和方法,包括Illumina (IL)短读长全基因组测序、PacBio (PB)三代长读长测序、基因组光学图谱(BNG)、10X Chromium (CHRO)、Illumina (IL-SLR)合成长读长测序、Strand-seq单细胞单链基因组测序、Hi-C高通量染色质构象捕获等,比较了各个平台数据特点,发现没有任何一项技术能够单独达到全面识别和组装整个人类基因组单倍型SVs所必需的密度、准确性和染色体跨度(PB或CHRO局部标记密集,Hi-C或Strand-seq达到染色体规模但标记稀疏)(图1 a,b,c)。随后将局部的、标记密集的技术与染色体规模的、标记稀疏的技术相结合,获得了密集的全局单倍型区块(图1 d,e)。

图1 从不同数据源获得的基于SNV的单倍型特征

Indel及SV检测

在现有的方法下,使用多种算法和数据类型可以最大化SV检测。利用染色体水平定相,划分PB reads单倍型,以单倍型感知的方式捕获遗传变异的全部特征。将PB、Strand-seq和CHRO数据组合起来,用定相后的PB reads生成单倍型从头组装结果,覆盖了常染色体基因组的92.3%。与现有1000 Genomes Project的SV数据集比对,变异数量多出7倍(平均818,054个indels,27,622个 SVs)。

倒位特征分析

倒位代表了另一类遗传变异,1000 Genomes Project第三阶段(1KG-P3)中,在3.3Mb序列的2504个基因组中鉴定了786个倒位,本研究仅从三个家族中鉴定了308个倒位,总共36.4Mb的序列,其中58个倒位与基因组疾病关键区域重叠。五种不同技术的互补增加了检测的敏感性(图2 b)。对于较小的片段,倒位检测在很大程度上取决于IL和PB数据集的组合,而对于较大的倒位事件,Strand-seq是最适合的。这表明,为了达到SV检测的最大灵敏度和特异性,必须采用多种检测算法和正交技术。

图2 简单和复杂倒位的特征

Indel和SV检测优化及平台比较

基于Illumina短读长序列的SVs对人类疾病研究的贡献没有完全量化,而三代长读长测序技术的成本和通量尚不能支持大规模研究,作者建议针对疾病研究考虑使用多种技术分类应用来全面识别SV。基于Illumina短读长序列WGS数据,应该使用多种SV调用算法的交集进行分析,比单个方法提高3%的灵敏度的同时将检测错误率从7%降低到3%。而基于PacBio则需要使用reads深度算法来解决大片段重复中碱基拷贝数不成比例的问题。

图3 IL和PB两种方法所获得SV数据集的一致性比较。

总结

本研究为测序成本和SV检测所需灵敏度之间的平衡提供了参考,即不同技术组合与不同算法组合产生的增效作用。例如:使用Strand-seq和CHRO测序定相整个染色体,虽然Strand-seq方法尚未广泛使用;Hi-C与CHRO测序组合提供染色体臂水平定相,并且技术成熟应用范围广;利用高覆盖度的IL序列结合多种算法,可以检测到多达SV总数52%的缺失和18%的插入突变;而三代PB数据的加入会显著增加遗传变异检测的敏感性,特定基因的编码序列中检测到的SV的数量增加了3倍,UTR序列变异增加2倍,TFBS检测到SV增加约20%。

参考文献:

Mark J.P. Chaisson et al. Multi-platform discovery of haplotype-resolved structural variation in human genomes. 2019. Nature Communications.

相关阅读:

Cell| PacBio升级解析人类基因组结构变异

13.5Kb CCS reads升级人类基因组变异识别和组装

未来组Direct RNA测序合作项目文章online啦!

2019年4月14日,中国科学院北京生命科学研究院、动物研究所及中国科学院大学等多家单位合作在RNA Biology(IF=5.216)上发表题为“Long-read direct RNA sequencing by 5’-Cap capturing reveals the impact of Piwi on the widespread exonization of transposable elements in locusts”的文章。Nanopore 长读长Direct RNA测序不需要经过反转录可获得完整的RNA转录本。该研究结果证明了5’-Cap捕获法的Direct RNA测序在描述包含重复序列的全长RNA转录本中具有重要作用。这是国内Direct RNA测序相关研究成果的首次亮相,武汉未来组承担了Direct RNA的建库测序工作。

内容摘要

飞蝗(Locusta migratoria)基因组较大,积累了大量的具有内在转录活性的转座子(TEs),TEs插入到内含子中被剪切机制识别,当做外显子添加到RNA转录本中的过程被称为外显子化。外显子化的TEs产生大量的高度相似的片段,运用短读长测序技术很难获得准确的全长RNA转录序列。本研究通过 5’-Cap捕获的方法富集全长RNA转录本,通过Nanopore对RNA直接进行测序,以天然RNA形式描述飞蝗全长转录本特征。外显子化的TE包含大量的剪接供体和受体位点,有助于形成可变剪切转录本。研究者分析了蝗虫转录中TE外显子化模式,揭示了TE外显子化的广泛建立以及蝗虫转录组中TEs对RNA剪接的重要作用。此外,TEs的表达受Piwi蛋白的限制,分析Piwi表达对包含有TE衍生序列的RNA转录本图谱的影响,结果表明TE衍生序列是Piwi介导的抑制作用的主要靶点,Piwi的表达调控了包含TE衍生序列的RNA转录本长度,产生了可替代的UTR调控。

材料和方法

飞蝗(Locusta migratoria)基因组高达6.5 Gb, 其中转座子(TEs)序列占比高于65%,且大部分具有转录活性。因此,飞蝗可作为研究大型基因组TE结构和功能的理想模型。本研究以羽化的飞蝗为研究对象,通过 5’-Cap捕获的方法富集全长RNA转录本,5’-生物素化的RNA转录本通过耦合的链霉亲和素免疫磁珠捕获。通过Nanopore对RNA直接进行测序(Fig.1)。

Fig.1  5ʹ-Cap捕获的方法富集全长RNA转录本流程

主要结果

1.5ʹ-Cap捕获方法可富集全长RNA转录本

Nanopore Direct RNA测序作为一种新开发的技术只在少数几个物种中被应用。为了验证其在蝗虫中的可靠性,研究者测定了蝗虫转录组中转录本长度、序列一致性、Isoform覆盖度以及检测的基因数目,结果表明该测序方法可以精确获得蝗虫RNA转录本。

通过Fig.1所示的流程富集全长RNA转录本,RNA转录本5ʹ-末端合成的RNA接头(分为短接头文库和长接头文库)用作序列标签评估RNA转录本的完整性,短接头文库和长接头文库分别产生457,470和269,712条高质量reads。为了验证5ʹ-Cap捕获方法的有效性,研究者检测5ʹ-末端到3ʹ-末端接头的覆盖度,结果发现在长接头文库中大部分鉴定到的接头在5ʹ-末端,但是在长接头文库中5ʹ-末端没有接头富集(Fig.2a)。检测序列一致性及转录本比例,发现其均随长接头序列的减短(沿5ʹ-末端缩短)而增加(Fig.2b)。表明Direct RNA测序获得的RNA转录本5ʹ-末端的极端序列准确性较差。进一步使用长接头5ʹ-Cap富集文库的序列评估RNA转录本的基因覆盖度,编码区和非翻译区域整体覆盖度很好(Fig.2c),表明5ʹ-Cap捕获方法的Direct RNA测序可以获得全长CDS。

Fig.2  5ʹ-Cap捕获的方法富集全长RNA转录本效果验证

2. 大量的RNA转录本包含外显子化的转座子序列

以最长的RNA转录本作为每个转录本单元的代表序列,在60,908条代表序列中,51.88%(31,599)至少包含1个TE衍生序列,TEs序列长度占整个蝗虫转录组的19.94%。其中,37.45%为DNA转座子,32.93%为non-LTR 逆转录转座子,29.63%为LTR 逆转录转座子(Fig.3a)。家族间的频率分析表明,没有一个特定的家族主要促使其他家族成员的TE共现(Fig.3b)。由此可见,在大部分的RNA转录本中可观察到TE衍生序列的外显子化,并且不同的TE家族对蝗虫的RNA转录本作用不同。进一步分析发现,与5ʹ-UTR和3ʹ-UTR区域相比,编码区显示对TE外显子化更强的选择,而相比于3ʹ-UTR,5ʹ-UTR对TE外显子化更容易(Fig.3c)。

Fig.3  蝗虫转录组TE事件

3.Piwi的表达影响包含TE衍生序列的RNA转录本的长度

80%以上包含TE衍生序列的RNA转录本被认为是蝗虫的转座子,大量的转座子随着Piwi的沉默表达量上调(Fig.4a),RNA干扰的Piwi表达对蝗虫转录组中编码基因的表达有重要影响。dsPiwi样本TE衍生序列的覆盖度高于dsGFP样本,表明dsPiwi样本TE衍生序列内含物水平更高(Fig.4b)。为了探明TE衍生序列产生的可变剪接事件是否与dsPiwi样本更高水平的内含物有关,研究者检测了可变外显子中的TE衍生序列,只有少数(9.82%)可变剪接事件与TE衍生序列有关,大多数(96.88%)TE衍生序列的外显子在dsPiwidsGFP中均有发现(Fig.4c),表明可变剪接不是dsPiwi样本更高水平内含物的主要因素。进一步研究发现dsPiwi样本中双表达包含TE衍生序列的RNA转录本长度显著高于dsGFP样本,但是,双表达不包含TE衍生序列的RNA转录本长度在两个样本中没有显著差异(Fig.4d)。dsPiwi样本和dsGFP样本中蛋白编码转录本序列长度的差异主要是由于5ʹ-UTR和3ʹ-UTR区序列的变化而不是CDS区域序列的变化引起的,暗示了由Piwi表达介导的可替代的UTR调控。


Fig.4  Piwi RNA沉默后TE表达活性增强

总之,该研究结果证明了5’-Cap捕获法的Direct RNA测序在描述包含重复序列的全长RNA转录本中具有重要作用。

不经反转、无须扩增的RNA直接测序能获得全长的链特异性RNA,无测序偏好性,并同时记录碱基修饰,为后续研究基因结构和基因表达,提供新技术新方法。未来组作为国内最早通过官方认证的Nanopore测序服务供应商,已有多个Direct RNA测序项目经验,新技术还能带来哪些新机遇呢?组学君诚邀您一起探索!

参考文献

Feng Jiang, Jie Zhang, Qing Liu, Xiang Liu, Huimin Wang, Jing He & Le Kang (2019): Long-read direct RNA sequencing by 5’-Cap capturing reveals the impact of Piwi on the widespread exoniza- tion of transposable elements in locusts, RNA Biology, DOI:10.1080/15476286.2019.1602437