项目文章两连发||三代测序助力药用动物圆点斑芫菁、菲牛蛭基因组草图组装

近日,由陕西师范大学许升全教授团队主导的圆点斑芫菁基因组文章“Draft Genome of a Blister Beetle Mylabris aulica”和菲牛蛭基因组文章“Draft Genome of the Asian Buffalo Leech Hirudinaria manillensis”在frontiers in Genetics期刊发表。陕西师范大学许升全教授和黄华腾教授为圆点斑芫菁基因组文章的共同通讯作者。陕西师范大学许升全教授、王喆之教授和西北工业大学邱强教授为菲牛蛭基因组文章的共同通讯作者。武汉未来组作为两篇文章的共同作者,承担了圆点斑芫菁和菲牛蛭的三代测序及分析工作。下面就由组学君给大家带来这两篇文献的解读吧~
文章一——圆点斑芫菁基因组揭示斑蟊素合成机制
题目:Draft Genome of a Blister Beetle Mylabris aulica [1]
发表期刊:frontiers in Genetics
合作单位:陕西师范大学
测序方法:纳米孔测序
圆点斑芫菁(Mylabris aulica)属鞘翅目芫菁科,也称为斑蝥。其受到袭扰后能产生一种具有刺激性的防御物质斑蝥素(Cantharidin),具有抗炎、抗病毒、增强免疫调节活性的作用。最新研究表明斑蝥素及其衍生物能够抑制多种类型癌症的增殖,但其人工合成因为条件苛刻一直无法工厂化生产。目前对芫菁科昆虫体内斑蟊素的合成机制研究主要是用比较转录组的方法推测可能的相关基因,但代谢通路完全不清楚。
研究者利用纳米孔测序技术组装出288.5 Mb的圆点斑芫菁的基因组,scaffold N50为467.8kb,预测的重复序列占50.62%,BUSCO完整性评估达97.9%,相比已经报导的两种已知斑蝥基因组,该组装连续性、完整性都得到了极大提升。根据基因组数据对圆点斑芫菁的遗传背景进行分析,表明圆点斑芫青与其他芫菁科昆虫基因背景几乎完全相同,分化时间也极短。随后研究者在“萜烯类主链生物合成”途径中发现了30个基因家族,它们参与了斑蝥素的生物合成,并且对其中两个功能未知的基因BMGene00496和BMGene01890进行了功能注释。
总之,本研究利用纳米孔测序技术组装出了圆点斑芫菁的基因组草图,对斑蝥素生物合成相关的可能基因和途径进行了分析,为后续圆点斑芫菁研究以及斑蝥素生物合成提供了宝贵资源。

萜类生物合成“KEGG通路图”,绿色方框基因在圆点斑芫菁基因组中发现。

文章二——菲牛蛭基因组揭示水蛭素合成机制
题目:Draft Genome of the Asian Buffalo Leech Hirudinaria manillensis[2]
发表期刊:frontiers in Genetics
合作单位:陕西师范大学、西北工业大学
测序方法:PacBio SMRT
菲牛蛭(Hirudinaria manillensis)也称亚洲水蛭,广泛分布于东南亚的水生食血物种,是中国药典收录的3种药用水蛭中个体最大、吸血能力最强的一种。抗凝血物质水蛭素的生物合成是菲牛蛭最重要的特征,促进了其在临床放血等方面的应用,但是水蛭素合成相关基因及遗传背景完全缺失。
研究者选取成年菲牛蛭的肌肉组织为样本进行测序,组装出的基因组大小为151.8 Mb,scaffold N50为2.28Mb,BUSCO评估达93.7%,表明该组装基因组质量较高。基于RepeatMasker 和RepeatModeler,预测该基因组含有19.52%的重复元素。结合Ab initio预测和同源比对预测,共预测到21,005个编码蛋白基因,其中注释到的功能基因有17,865个。抗凝血物质生物合成是菲牛蛭最重要的特征,研究者检测了菲牛蛭基因组中具有水蛭素和抗凝素结构域的抗凝蛋白,最终鉴定到16个蛋白中含有水蛭素或抗凝素结构域。进一步的比较基因组分析显示,菲牛蛭合成水蛭素与已知水蛭素蛋白质序列虽存在差异,但空间结构变异较小,行使相同分子功能,未经历快速进化。
总之,本研究利用PacBio测序技术组装出首个菲牛蛭的基因组,并鉴定出16个含有水蛭素或抗凝素结构域的蛋白。这些数据将有助于进一步了解菲水蛭的生物学机制和遗传特性,并为今后的研究提供宝贵的资源。

2抗凝素结构域在菲牛蛭基因组contig00006 上的分布。
参考文献:
[1] Guan D L, Hao X Q, Mi D, et al. Draft genome of a blister beetle Mylabris aulica[J]. Frontiers in Genetics, 2019, 10: 1281.
[2] Guan D L, Yang J, Liu Y K, et al. Draft Genome of the Asian Buffalo Leech Hirudinaria manillensis[J]. Frontiers in Genetics, 2020, 10: 1321.

项目文章||芡实与金鱼藻三代基因组揭示早期被子植物演化

2020年2月24日,国际著名植物学研究期刊Nature Plants发表了题为”Prickly waterlily and rigid hornwort genomes shed light on early angiosperm evolution”的文章,该研究公布了被子植物的两种早期演化分支代表种:芡实和金鱼藻的染色体水平基因组序列,通过与其它代表性陆生被子植物代表基因组进行了深入的比较分析,揭示了早期被子植物的复杂演化历史。来自四川大学的杨勇志(现为兰州大学青年研究员)和华北理工大学的孙朋川是论文的并列第一作者;四川大学教授刘建全、席祯翔,华北理工大学教授王希胤、哈佛大学教授 Charles C. Davis是论文的通讯作者;刘建全教授为该项目的总负责人。武汉未来组承担了芡实和金鱼藻的纳米孔测序工作。
被子植物,或称开花植物,是地球上多样化程度和物种丰富度最高的类群之一,早期被子植物的突然出现和迅速多样化使被子植物的起源成为著名的达尔文“讨厌之谜”。几十年的努力已经极大地解决了被子植物的系统发育问题,但是主要分支之间的演化历史始终存在争议。例如,核心被子植物的五大类群之间的系统发育关系仍存在模糊不清的地方。核心被子植物包含约99%的现存被子植物,分为真双子叶植物、单子叶植物、木兰类植物、金鱼藻目以及金粟兰目五大类群,现有研究根据不同的形态学或分子层面证据,提出了不同的发育分支拓扑结构。
基因组数据能够提供更加丰富和有说服力的证据来解决物种进化分歧问题。本研究采用三代Nanopore长读长测序数据和二代illumina短读长数据,分别组装出芡实(725.23Mb, Contig N50=4.75 Mb)和金鱼藻(733.26Mb, Contig N50=1.56 Mb)的基因组序列,随后结合Hi-C数据,将基因组提升至染色体级别。评估表明两个基因组显示了高度的连续性、完整性和准确性(图1a),并与细胞学研究中获得的染色体数目相匹配。
随后研究者在芡实基因组中检测到两个多倍化事件,校正进化速率之后,估计芡实基因组中的两个多倍化事件分别发生在大约16-18百万和94-106百万年前(Ma)。在金鱼藻中检测到三个多倍体化事件,估计分别发生在大约13-15 Ma,127-143 Ma和157-177 Ma。并且被子植物的五个主要演化分支,金鱼藻、睡莲类、木兰类、单子叶植物和真双子叶植物中都发生了多个独立的多倍化事件(图1b),并且芡实最近还经历了一次基因组加倍。

图1 比较基因组分析。a芡实和金鱼藻基因组特征; b平均同义替换水平(Ks)在同位块间的分布。
研究者从13种被植物和1种裸子植物基因组序列中鉴定出1,374个单拷贝核基因用于构建系统发育树,首次涵盖两个基础被子植物类群(无油樟目无油樟、睡莲目芡实)以及核心被子植物五大类群中的四个(4个真双子叶植物,3个单子叶植物,3个木兰类植物,金鱼藻目金鱼藻)。采用两种方法连接并分析蛋白质编码区获得了两个数据集(SSCG-CDS 和SSCG-Codon12)构建进化树表明,无油樟和睡莲类依次是其他被子植物的姐妹群,同时推测金鱼藻是真双子叶植物的姐妹群(图2a,b)。同时,研究者还利用OrthoMCL方法和新开发的物种发育树构建方法STAG证实了上述结论的可靠性(图2a)。
随后研究者使用DensiTree 对SSCG-CDS和SSCG-Codon12两个发育树进行可视化,发现二者存在普遍的拓扑冲突(图2c),无油樟目和睡莲目之间的拓扑分支冲突和金鱼藻系统发育位置的矛盾(图2d)。并且无油樟目和睡莲目的系统发育位置在基因树和物种树之间存在大量不一致(图2e)。这些分析表明,在早期被子植物进化过程中可能存在大量的不完全谱系分选(ILS),造成主要分支之间基因树、或核基因组-叶绿体基因组系统发育树分支关系不一致。
          

图2 早期分化被子植物的系统基因组分析。a 基于MCMCTree推断的SSCG-CDS数据集的被子植物早分化年表;b DiscoVista物种树分析;c SSCG-CDS(红色)和SSCG-Codon12(橙色)叠加超矩阵基因树。d SSCG-CDS和SSCG-Codon12中物种树内部分支的三种拓扑的频率(q1-q3)。e 基因树的兼容性
总之,本研究组装出了两个早期水生被子植物——芡实和金鱼草的高质量染色体水平基因组,结合其他代表性被子植物主要类群,利用多个数据集和多种方法,深入解析了被子植物的早期演化以及不同类群之间的系统发育关系。这些发现有助于研究被子植物中主要分支的演化次序和生境转变、植物生命之树重建,特别是水生被子植物适应性演化、不同类群的古多倍化等复杂进化历史。
参考文献:
Yang Y, Sun P, Lv L, et al. Prickly waterlily and rigid hornwort genomes shed light on early angiosperm evolution[J]. Nature Plants, 2020: 1-8.

希望组三代测序助力特发性震颤相关致病基因发现

近日,国家老年疾病临床医学研究中心(湘雅)、中南大学湘雅医院神经内科唐北沙教授、郭纪锋副教授团队在国际神经病学领域权威期刊《Brain》(IF:11.814)以论著形式在线发表了题为“Expansion of GGC repeat in human-specific NOTCH2NLC gene is associated with Essential Tremor”原创性论文[1]。该研究在国际上首次揭示了NOTCH2NLC基因GGC异常重复扩增与特发性震颤(ET)相关。中南大学湘雅医院郭纪锋副教授和唐北沙教授为该论文并列通讯作者,孙启英博士和徐倩博士为共同第一作者。北京希望组承担了该研究中Nanopore长读长测序和分析工作。
特发性震颤(Essential tremor, ET)是最常见的运动障碍疾病之一,典型症状为双上肢4-12Hz的动作性震颤,可伴有下肢、头部、口面部或声音震颤。特发性震颤的患病率随着年龄的增长而急剧增加:在65岁以上的人群中,有约4.6%的患者;在95岁以上的人群中,有约20%的患者。尽管ET具有很高的发病率和家族聚集性,其致病基因和发病机制仍不明确。
 
本研究中唐北沙教授、郭纪锋副教授团队首先对两个ET家系应用连锁定位、单体型分析将其致病基因定位于染色体1p13.3-q23.3,在全外显子测序(whole-exome sequencing,WES)未找到可疑致病突变后,应用Nanopore长读长测序技术发现区间内NOTCH2NLC基因5’端GGC异常扩增(图1)。进一步应用RP-PCR、GC-PCR分析发现,这两个家系中所有ET患者GGC扩增次数(平均108.67±22.24)远高于未受ET影响的成员(平均14.60±4.28),表明NOTCH2NLC基因5’端GGC异常扩增与这两个ET家系存在共分离现象。随后,在另外195个中国ET家系中发现NOTCH2NLC基因5’端GGC异常重复扩增与9个ET家系存在共分离,提示NOTCH2NLC基因5’端GGC异常重复扩增可能是ET新的相关致病基因。
                                         
图1 通过连锁分析结合三代测序发现两个ET家系中NOTCH2NLC基因5’端GGC异常重复扩增。A 两个ET家系;B 遗传连锁分析;C Nanopore电信号显示异常重复扩增(3/4);D Family 1: III10患者的NOTCH2NLC基因5’端GGC异常重复扩增。
值得一提的是,此前沈璐教授、唐北沙教授团队在国际上首次报道了神经元核内包涵体病(NIID)致病机制与NOTCH2NLC基因中GGC异常重复扩增相关[2],该研究同样是利用Nanopore长读长测序技术检测到致病基因,希望组参与了其中长读长测序和分析工作。Nanopore长读长测序技术能检测出二代测序无法覆盖到基因组上的复杂区域,如串联重复、结构变异等,在遗传病诊断领域具有深远的发展前景。
参考文献:
[1] Sun Q Y, Xu Q, Tian Y, et al. Expansion of GGC repeat in the human-specific NOTCH2NLC gene is associated with essential tremor[J]. Brain, 2019.
[2] Tian Y, Wang J L, Huang W, et al. Expansion of Human-Specific GGC Repeat in Neuronal Intranuclear Inclusion Disease-Related Disorders[J]. The American Journal of Human Genetics, 2019.

超级植物-蕨类的三代基因组攻略:ONT超长+Bionano Gen2+Hi-C+NextDenovo

超级植物

蕨类在地球上已经存在了3.35亿年,是现存最古老的植物之一。远在恐龙出现和大陆漂移之前,它们便占据着原始大陆的沼泽森林,通过羽状叶片储存大量太阳能。蕨类死亡后的遗骸被埋葬在泥泞的沼泽沉积物中,经过千万年压缩转化成当代工业革命的能量——煤。

蕨类:基因组,够大;染色体数,够多!

蕨类具有重要系统发育地位,尽管蕨类的基因组数据量仍然有限,但现有数据强烈表明,它们的基因组动力学与所有其他陆地植物截然不同。蕨类基因组的典型特征是染色体数目多这被认为是通过多倍体的多个全基因组复制(WGD)周期产生的。然而,与被子植物多倍体相比,蕨类的多倍体后二倍体化过程通常涉及基因沉默而不是DNA消除,从而导致染色体数目异常增多,同时保持二倍体基因的表达[1]。蕨类染色体的平均数目(n = 63.5)[2]是被子植物平均数目的三倍多(n = 21.55)[3]而蕨类基因组大小平均为12Gb[3],最大甚至达到148Gb[4,5]

蕨类基因组研究现状

对蕨类基因组结构和功能的研究,有利于深入研究其多倍性和染色体进化问题。然而,由于短读长测序组装的技术瓶颈,造成蕨类的基因组测序工作长期止步不前迄今为止,仅测序了满江红(Azolla filiculoides,0.75Gb)和勺叶槐叶萍(Salvinia cucullata,0.26Gb)两个小基因组蕨类[7]。由于缺少参考基因组信息,对蕨类的分子生物学研究也远远落后于其他类型的植物,尤其是种子植物。
测序技术的发展以及成本的降低使基因组测序变得越来越容易,但对于基因组普遍较大的蕨类,有必要仔细计划测序策略并决定对哪些物种测序。最近,康奈尔大学博伊斯汤普森研究所的研究人员统计了最新的蕨类基因组大小数据,并确定了18个跨越蕨类进化树的中型基因组,作为未来蕨类全基因组测序的候选种(图3)[8]。该研究为更好地了解蕨类基因组特征,同时解决长期存在的蕨类多倍性和染色体进化问题,提供了路线图。
图3 蕨类全基因组测序候选种的系统发育位置及其基因组大小[8]
蕨类测序策略:ONT超长+Bionano Gen2+Hi-C+NextDenovo
二代测序见证了过去10年的“基因组大爆发”,超过数百个种子植物基因组被测序发表,但是面对基因组情况复杂的蕨类,二代测序技术捉襟见肘。长读长的三代测序、光学图谱、色体构象捕获等新技术,是目前解决复杂动植物基因组De novo组装的有效策略。
表1 蕨类基因组De novo测序策略
希望组科技服务作为三代测序服务的领跑者,在复杂、大型动植物基因组组装方面有着独特优势。
平台优势——ProthemION48、Saphyr Gen2
牛津纳米孔ProthemION48能够提供平均5Tb/周的高质量长读长测序数据,Bionano Saphyr升级至Gen2平台,数据产出提升4倍,完美适配超大型基因组测序项目。

· 测序优势——ONT ultra-long reads 超长测序技术
 
牛津纳米孔测序测序平台独有的Ultra-long测序能够产生超长测序片段,轻松跨越基因组中连续重复或大片段重复区域,显著提升组装质量,更大限度地还原真实的基因组景观。希望组自2017年推出ONT超长测序服务以来,现已完成昆虫、两栖动物、鱼类、鸟类、哺乳动物、多倍体植物、药用植物等数百个物种的ONT Ultra-long测序工作,并且多个物种测序单Cell read N50突破100Kb!

· 算法优势——NextDenovo
希望组自主研发三代测序数据高效纠错、组装软件NextDenovo,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组。基于NextDenovo,希望组已经实现了小基因组物种近完成图和>10Gb基因组物种的组装工作。

表2 NextDenovo的组装案例

· 辅助组装——Bionano&Hi-C
希望组同时提供Bionano光学图谱和Hi-C测序服务,在三代测序数据组装基因组的基础上结合不同分辨率的辅助组装策略,打造染色体级别的基因组。
通过以上分析可以发现蕨类基因组动力学与所有其他陆地植物截然不同,对研究植物多倍性和染色体进化有重要的研究价值。在一代测序和二代测序时代,受限于测序技术自身局限性以及测序成本的高昂,很难针对基因组普遍较大的蕨类进行测序,随着长读长三代测序技术的崛起以及测序通量的提升,已经有研究人员开始筹划针对蕨类的大规模基因组测序计划,并整理出了了18个跨越蕨类进化树的中型基因组,作为未来蕨类全基因组测序的候选种。因此,蕨类基因组研究无疑是一片有待深入探究的蓝海,希望组作为三代测序服务的领跑者愿成为您科研航程的领航员!

合作项目||西瓜三代基因组+BioNano+群体再发NG

2019年11月1日,北京市农林科学院许勇团队、中国农科院郑州果树所刘文革团队、美国康奈尔大学Boyce Thompson研究所费章君团队和中国农科院深圳基因组所黄三文团队等合作在国际学术期刊Nature Genetics在线发表了题为Resequencing of 414 cultivated and wild watermelon accessions identifies selection for fruit quality traits的研究成果。该研究利用三代测序技术完成了西瓜品种“97103”新的基因组精细图谱绘制,结合414份西瓜二代重测序数据,利用群体基因组分析及全基因组关联分析对西瓜的进化、驯化历史进行了解析。武汉未来组承担了该研究中的PacBio基因组测序、HiC测序、Bionano测序以及PacBio全长转录组测序工作。

西瓜(Citrullus lanatus, 2n=2x=22)是全世界最普遍的水果之一。它起源于非洲,隶属于葫芦科西瓜属,其驯化历史已超过4000年[1]。在漫长的驯化过程中,自然选择和人类选择是如何导致西瓜的表型发生显著性改变,目前还未完全清楚。

新一代西瓜基因组精细图谱绘制
研究者利用PacBio测序平台对西瓜品种“97103”进行长读长测序,结合Bionano光学图谱与Hi-C染色体构象捕获技术,完成了全新一代西瓜基因组高质量精细图谱绘制。最终基因组组装大小365.1 Mb,scaffold N50为21.9Mb,其中31个scaffold构成了基因组大小为362.7Mb的11条染色体,覆盖了西瓜基因组组装大小的99.3%,是迄今为止最高质量的西瓜基因组序列图谱。
西瓜属的基因组变异图谱与系统发育
图1 来源于西瓜属7个种的414个样品重测序的系统发育关系和群体结构组成。
随后研究者对覆盖世界上现存西瓜属全部7个种的414份代表性种质资源进行了二代基因组重测序,每个样本的平均测序深度为14.5x,共鉴定获得19,725,853个SNP变异位点。通过群体结构分析,在基因组水平上证实了非洲苏丹地区的两个西瓜资源与高糖栽培西瓜的祖先遗传关系最近。同时发现黏籽西瓜(C. mucosospermus)是距现代栽培西瓜(C. lanatus)亲缘关系最近的种群且具有共同的祖先。基因漂移等证据表明,饲用西瓜(C. amarus)与这两个种群之间可能存在独立进化,首次从全基因组层面明确了西瓜属现有7个种之间的进化关系。
西瓜属全基因组关联分析(GWAS)
图2 西瓜果实品质性状全基因组关联性分析
接着研究者通过西瓜全基因组关联分析,鉴定获得了与果实含糖量、瓤色、果实形状和种子颜色等多个与果实品质性状相关联的43个信号位点,其中有8个位点与已知QTL重合,进一步缩小了定位区间,为候选基因的精细定位和功能验证提供了宝贵线索。在果实含糖量中最强的信号位点和已知QTL QBRX2-1重合,并在10号染色体上额外发现2个和果实含糖量高度相关的区域(图2 a,b)。在瓤色中2个明显的信号位点分别在2号染色体和4号染色体上,且4号染色体上的位点与已知QTLFC4.1重合(图2c)。在果实形状上有14个相关信号位点,和已知的3个QTL重合(Qfsi3、FSI3.1FSI3.2)(图2d)。在果皮颜色和花纹上发现了染色体4、6和8号染色体上各有1个信号,分别为Dgo、SD(图2e,f)。在种子颜色上发现了13个相关信号位点,其中位于3号染色体上最强的信号与已知QTL qrc-c8-1重合(图2g)。
西瓜果实品质性状进化和驯化
图3 西瓜全基因组的选择区域
最后研究者通过进化和驯化分析,系统解析了野生西瓜到栽培西瓜的基因组驯化历史,鉴定获得了果实大小、果肉含糖量、苦味、瓤色、质地、风味等重要品质性状的选择区域及候选基因,与西瓜物种自然分化阶段相比,品质驯化改良阶段受选择基因数量显著增加,总共有620个基因独立参与了甜西瓜的改良阶段。此外,作者还发现了人类利用野生西瓜种质进行抗性改良的基因组渗入痕迹,为后续栽培作物的改良打下基础。
小结
本研究采用长读长测序+Bionano光学图谱+Hi-C策略完成了迄今为止最高质量的西瓜基因组精细图谱绘制,在此基础上通过对414个现存西瓜品种利用二代基因组重测序分析,揭示了人类及动物活动在西瓜品质形成进化中的重要作用,为西瓜功能基因深入研究及优异基因资源的利用提供了重要数据支撑和理论基础,具有重要实践意义和科学价值。

20只蝴蝶群体研究登顶Science封面,100天100个基因组De novo正当时!

群体遗传学研究的一个重要手段是利用高通量测序技术提供的DNA序列变异信息来推测作用于基因组的各种力量(突变,自然选择,群体结构,杂交等)是如何影响生物演化进程的。目前进行DNA序列变异分析的主要策略包括:基于比对(Alignment)检测和基于组装(De novo)的方法。基于序列比对的群体重测序凭借其高性价比,是动植物分子育种、群体进化研究中最为迅速有效的方法之一。但是随着测序成本的降低以及群体研究的深入,基于组装的群体基因组De novo越来越多的应用于群体遗传学研究,尤其是在解决物种进化的重大问题上表现抢眼。

2019年11月1日,国际顶级学术期刊Science以封面文章形式刊登了一篇基于群体基因组De novo的研究[1]。研究人员利用从头组装的方法构建了20个新的袖蝶属基因组,来探索快速辐射的袖碟属的物种形成历史和基因流结构。

图1 基因组结构和基因渗入形成了蝴蝶多样性

袖蝶属是由至少40个蝴蝶品种组成的多样化属,它们以其多彩且极为独特的翅翼图案而闻名。由于这种多样性,该物种一直被用于研究物种之间的基因渗入。然而,由于难以区分基因混合,杂交在袖蝶属适应性辐射中的作用仍然受到质疑。本研究构建了20个新的袖蝶属蝴蝶从头组装基因组,并使用一种新方法确认通过杂交引入的基因变异,结果表明基因组结构和基因渗入形成了蝴蝶多样性,物种间偶尔的基因渗入和重组可能会对基因组产生重大的长期影响,并为物种的快速适应性分化和辐射提供必要的基因物质。

无独有偶,2019年6月21日Science在线发表了西北工业大学及丹麦哥本哈根大学对反刍动物基于群体基因组De novo的研究[2],研究人员选取代表了反刍动物36个属,横跨全部6个科的44个反刍动物,对它们的基因组进行De novo组装,结合最新化石信息,构建了所有节点100%自举支持的全基因组系统发育树,为解决进化地位争议和更深入的理解表型进化提供了重要支持。图2 大规模的反刍动物基因组测序为研究反刍动物的进化和特性提供了新的思路基于三代测序的群体基因组De novo研究也如火如荼,美国约翰霍普金斯大学、冷泉港实验室和其他机构的研究人员使用Oxford Nanopore长读长技术的高通量PromethION测序平台,在100天内对100个番茄品种完成测序。研究者结合使用长读长技术、计算生物学和功能研究来发掘和鉴定番茄的结构变异,以便在未来进行从自然变异和驯化到作物改良的一系列研究。该团队同时采用了比对检测和从头组装两种策略进行结构变异分析,2019年5月7日,Nature Plants杂志在线发表了该研究的部分成果[3]

以上案例表明随着群体遗传学研究的深入,基于群体基因组De novo的群体基因组学研究是大势所趋,希望组科技服务隆重推出群体基因组De novo服务:

100天100个De novo测序组装交付!

希望组3大实力保证交付质量与周期:

测序产能——ONT P48 产能怪兽

2019年5月17日,希望组武汉测序中心引进全球首台商业化的Nanopore PromethION 48(P48)测序仪,成为纳米孔测序技术服务的先锋!目前所有类型三代测序仪中,P48的产能首屈一指,实测经过96小时测序,45张芯片同时运行,总计产生了4.8Tb的Nanopore长读长测序数据,官方最高获得7.3Tb的数据量,名副其实的产能怪兽!

组装软件——自主NextDenovo
2019年10月18日,希望组发布三代测序数据高效纠错、组装软件NextDenovo 最新版本V2.0beta.1,其包含NextCorrect和NextGraph两个模块,依次进行测序数据的高效纠错、组装,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组。
急速分析——华为云基因容器
基因测序对密集计算和海量数据处理能力有较高的要求,尤其是随着第三代基因测序技术的研发和广泛应用,数据量较之第二代有了百倍增长。华为云基因容器支持10万容器规模,可以超高并发运行测序分析流程,可以避免任务的死锁、减少等待时间,进一步提升测序分析效率。目前华为云基因容器已经率先集成了NextDenovo最新版,分析速度如虎添翼!

希望组三大实力加持之下,足以保证从样本合格起,100天100个De novo测序组装交付,群体基因组De novo正当时!项目合作联系当地科技顾问或将合作需求发送至邮箱:sales-support@grandomics.com 
参考文献:[1] Edelman N B, Frandsen P B, Miyagi M, et al. Genomic architecture and introgression shape a butterfly radiation[J]. Science, 2019, 366(6465): 594-599.[2] Chen L, Qiu Q, Jiang Y, et al. Large-scale ruminant genome sequencing provides insights into their evolution and distinct traits[J]. Science, 2019, 364(6446): eaav6202.[3] Soyk S, Lemmon Z H, Sedlazeck F J, et al. Duplication of a domestication locus neutralized a cryptic variant that caused a breeding barrier in tomato[J]. Nature plants, 2019, 5(5): 471.

合作项目||应用多RNA组学策略精细解析亚洲棉基因组转录全景

近日,武汉大学生命科学学院朱玉贤院士、周宇教授课题组合作在国际学术期刊Nature Communications在线发表了题为”Multi-strategic RNA-seq analysis reveals a high-resolution transcriptional landscape in cotton”的研究论文。该研究通过整合运用四种高通量RNA测序技术,系统地研究了亚洲棉16个不同组织器官的RNA转录情况,建立了亚洲棉基因组转录全景图。生命科学学院王坤副研究员和周宇实验室王得和博士研究生为论文共同第一作者,朱玉贤院士和周宇教授为论文的共同通讯作者。武汉未来组承担了本研究中PacBio Iso-seq转录组的测序和部分分析工作。
棉花是一种重要的天然纤维作物,也是研究细胞分化、伸长和细胞壁发育调控的重要模式植物,构建棉花全面的高分辨率转录景观,有利于对其各种生物过程分子机制的研究。
多种RNA测序策略实现高分辨率转录组景观
本研究整合了四种互补的高通量技术,包括长读长Pacbio Iso-seq,链特异性RNA-seq,CAGE-seq和PolyA-seq,对亚洲棉16个不同组织或器官类型的转录情况进行测序,从而系统性的解析亚洲棉基因组转录全景。研究者通过编写的IGIA算法整合了四种技术的集成数据,从中鉴定出包括TSS,TES和内含子在内的的基因元件,对亚洲棉基因组的基因结构进行准确注释。最终,从36,826个基因中鉴定出94,170个转录本,其中有56.7%的基因只有一个转录本,而17,101个基因有两个以上转录异构体(图1c)。通过随机挑选的170多对注释差异位点的RT-PCR验证表明IGIA的准确率达到98%。

图1 针对亚洲棉高分辨率转录组景观设计的多重RNA-Seq策略。

多转录起始位点(TSS)和可变启动子的使用
研究者通过分析来自于22,863个亚洲棉基因的44,728个TSS cluster发现38.4%的基因有两个及以上转录起始位点(图2a)。多启动子基因的不同TSS中,远端TSS使用更为频繁(图2c)。可变启动子产生的RNA的异质性显着增加了转录组多样性,从而产生蛋白组的可塑性,本研究数据表明可变启动子可能分别改变了5,888个基因的UTR长度和2,800多个基因的编码蛋白长度(图2d)。进一步发现了具有胚珠组织或发育阶段特异性的TSS可变基因如NRT1.2,编码基因TSS可变造成NRT蛋白四个跨膜TM的丢失,产生NRT-L和NRT-S两种长度的蛋白异构体,造成结构变化影响硝酸根转运能力。上述结果表明,差异调控的选择性TSSs是棉花mRNA的一个共同特征,通常在mRNA或蛋白中产生选择性的N-端来调控发育。

图2 亚洲棉中多转录起始位点和可变启动子的使用。

发育调节的转录终止位点(TES)选择

于PolyA-seq的3’末端信息,我们对16个组织中所有表达基因的全基因组TES进行了分析。揭示了它们的序列特征、发育过程中的动态规律和组织规范。结果表明在棉花中所有表达的基因中,有40.2%的人至少有两个TES,基因的3’末端同样存在多TES调控的现象,在发育和组织分化过程中,很多基因的转录终止通过可变的TES调节其3’UTR的长度。

棉花中动态剪接开关与微外显子

本研究基于IGIA注释,对亚洲棉的23,451个多外显子基因进行了可变剪接(AS)的系统分析。结果表明,所有AS事件中内含子保留(RI)占62.2%(图3a),在所有报道的植物中是最高的。此外,某些基因中的几个区域显示出高度丰富的AS事件,研究者将其称为AS热点。进一步分析表明,大多数AS热点影响保守的蛋白质结构域(图3g-h)。微外显子(micro-exon)是动物中首先报道的一种微小外显子,其长度短至仅3nt,该研究通过系统分析,首次在棉花中鉴定到微外显子的存在,还通过在多个植物物种的比对,发现了一个具有潜在重要作用的45nt的保守微外显子。

图3 亚洲棉中选择性剪接调控及热点

多顺反子的发现及基因组特征
最后,该研究通过分析三代测序的全长转录本,发现约5%的亚洲棉基因存在转录通读现象,形成类似原核生物的多顺反子(Polycistron)转录本(图4a)。这些基因相互临近,平均距离明显小于其他相邻的独立转录基因之间的距离(图4c)。另外通过对这些多顺反子上的基因对的功能分析发现,他们往往倾向于执行相同功能或位于同一个分子作用网络(图4f-h)。该结果表明这些基因对的转录水平的共同调控现象可能利于其共同完成某一生物学过程。

                                                                                                                                                                                                             图4 亚洲棉中多顺反子的鉴定及基因组特征
小结

本研究通过IGIA算法整合了四种互补的高通量技术:用于直接读取全长转录本异构体的PacbioIso-seq,用于定量表达和剪接的链特异性RNA-seq,准确定义转录起始和终止位点的CAGE-seq和检测聚腺苷酸化位点的PolyA-seq,生成了高分辨率的亚洲棉转录组景观图谱。发现并验证了棉花发育中基因表达调控的不同模式,如可变启动子和终止子调节、微外显子剪接、多顺反子转录通读和RNA选择性剪接热区等复杂现象,对未来棉花功能基因组学的进一步发展意义重大。

参考文献:

Wang K, Wang D, Zheng X, et al. Multi-strategic RNA-seqanalysis reveals a high-resolution transcriptional landscape in cotton[J].Nature communications, 2019, 10(1): 1-15.

植物单cell N50 143kb!希望组Super Ultra Long硬核实力,您还等什么?

继8月底宣布单Cell reads N50突破100Kb后,希望组ONT Ultra-long测序再传捷报,某单子叶植物超长测序数据产出超过1200Gb,平均读长N50达51.9Kb,单cell最高产出58.9Gb,最长reads N50达143.3Kb!这标志着希望组ONT Ultra-long测序已经能够稳定产出高质量的超长片段!

某单子叶植物ONT Ultra-long测序单Cell产量超过10G,Reads N50达143.3Kb,长度100Kb以上的reads占总数据量的65.3%,长度200Kb以上的reads占总数据量的28.1%!

图2 某单子叶植物单Cell 超长测序读长分布

希望组自2017年推出ONT超长测序服务以来,现已完成昆虫、两栖动物、鱼类、鸟类、哺乳动物、多倍体植物、药用植物等数百个物种的ONT Ultra-long测序工作,并且多个物种测序单Cell read N50突破100Kb!

采用ONT Ultra-long reads组装基因组的优势

牛津纳米孔测序平台独有的Ultra-long测序能够产生超长测序片段,轻松跨越基因组中连续重复或大片段重复区域,更大限度地还原真实的基因组景观。

轻松跨越重复区域

对于基因组中“暗区”,二代测序小短腿直接掉入深渊,三代测序小心翼翼能够跨过,而Ultra-Long Reads能够轻松跨越连续重复区域,提供更多的序列信息,更便于组装过程重复片段划分。

显著提升组装质量

在基因组组装过程中可以通过增加读长获得理想组装质量[1],加入Ultra-Long Reads数据可以显著提升人类基因组组装效果,填补基因组中的缺口,甚至组装出端粒到端粒水平的完整染色体[2]

节约组装成本

相同测序深度下采用Ultra-Long的建库测序方法,产生用于组装超大型基因组的read数更少,降低了组装复杂度,减少了计算资源的使用,能够节省一定的组装成本。

Nanopore Ultra-long 超长读长的 Reads N50 相比 Normal long 有成倍的提升,在基因组组装过程中加入适量 Ultra-long 数据,可有效提升基因组组装质量。高杂合、高重复基因组采用纯 Ultra-long 数据进行基因组组装,能够达到较好的组装质量。

希望组ONT Ultra-Long组装案例

希望组三代测序组装采用PromethION 48+Ultra-long+Next系列组装软件+Bionano&Hi-C的最新策略,结合华为云将纳米孔测序数据分析流程整合到云计算平台上,实现急速基因组组装与注释,为全球客户提供快速、高效的纳米孔长读长测序计算和存储服务!希望组三代测序,技术顶尖,算法领先,服务全面,为您的科研之路保驾护航!

[1]  Henson J, Tischler G, Ning Z. Next-generationsequencing and large genome assemblies[J]. Pharmacogenomics, 2012, 13(8):901-915.

[2] Jain M, Koren S, Miga K H, et al. Nanoporesequencing and assembly of a human genome with ultra-long reads[J]. NatureBiotechnology, 2018, 36(4).

三代测序揭示葡萄驯化过程中结构变异的群体遗传学

结构变异(Structural variants,SVs)通常是指基因组上大长度的序列变化和位置关系变化。研究表明,与单核苷酸多态性(SNPs)相比,SVs可以解释更多的表型变异。在植物基因组中,SVs的类型、大小以及对于表型的贡献多有报道,大概1/3已报道的作物表型是由于结构变异引起的(Gaut et al. 2018 Nature Plants),但是对于SVs在种群个体间的分布以及种群动态,人们知之甚少。希望组科技服务在6月份推出了基于Nanopore平台的三代测序群体基因组SVs研究,许多老师对这一研究非常感兴趣,但苦于没有研究思路。最近,Nature Plants杂志在线发表了一篇群体水平结构变异研究文章,加州大学Irvine分校周永锋博士为第一作者,Brandon Gaut教授(UC Irvine)和Dario Cantu教授(UC Davis)为共同通讯作者。该研究探讨了葡萄驯化过程中结构变异的群体遗传学,今天就给大家分享一下这篇文章的研究策略,给各位提供一些科研灵感。

研究背景

多年生植物栽培葡萄(Grapevine)是由其野生祖先欧亚葡萄(Eurasian grapevine),在约8000年前的高加索地区驯化而来。驯化提高了果实含糖量,增大了果实的体积和串大小,改变了种子形态,同时使雌雄异株转变为雌雄同体无性繁殖。无性繁殖作物处于永久性杂合状态,并随着时间累积体细胞突变(Zhou et al. 2017 PNAS)。理论上,雌雄同体葡萄可以自交,但实践中,其自交后代无法存活,可能是近亲繁殖暴露了杂合状态下的有害等位基因。因此,大多数葡萄品种是远源亲本之间的杂交种,加上体细胞突变的积累,导致葡萄品种往往是高度杂合的。本研究通过调查野生和驯化葡萄中SV的群体遗传来填补我们对植物基因组进化认知的空白。

研究策略

无性系繁殖葡萄基因组中肆虐的半合子状态

研究者首先利用三代测序+二代测序+Hi-C技术,组装了高杂合葡萄霞多丽品种的基因组序列,并对其进行了注释和评估,发现无性系繁殖葡萄基因组中有七分之一(~15%)的基因属于半合子,这一结果在黑比诺(PN40024)基因组与赤霞珠(Cab08)参考基因中得到了验证。

随后研究者用长、短reads比对和全基因组比对等方法,综合比较了Char04和Cab08两基因组之间的SVs。结果表明利用长reads比对检测到59,913个SVs,其中75%得到另外两种方法的证实。两个品种之间有近5%的PAV基因差异,半合子基因差异高达25%,表明葡萄品种之间显著的结构变异(图2)。

图2 高杂合Char04及与Cab08结构变异的比较

SVs群体遗传分析

为了获得更广泛的葡萄品种及其野生亲缘SVs信息,研究者收集了有代表性的50个栽培葡萄品种和19个野生亲缘品种的短读长测序数据。以Char04为参考基因组,以Char04和Cab08综合比对的交叉SVs集合为金标准,获得了一组高度筛选的481,096个SVs。

随后,研究者利用上述SVs集合计算了12个野生种和12个栽培种的SFS(图3),推断了对SVs类型的选择强度,并对比了驯化和野生祖先之间的SVs频率。结果非同义SNP(nSNP)和SVs都经历了强烈的纯化选择,不同SVs类型中,易位TRAs和倒位INVs的选择性更强。因此SVs事件比nSNP更有害,INV和TRA事件尤其有害。

图3 处于强烈净化选择中的有害SVs

SVs在无性系繁殖体中积累

研基于SNP的个体杂合度分析,栽培葡萄个体杂合度要高出野生型葡萄11%,相应的单个栽培种SVs比野生种高出6%,但纯合子SVs或推测为中性的sSNPs没有明显增加(图4a)。因此有害SVs在无性繁殖情况下以杂合隐性形式隐藏、积累。

杂合变异的积累会影响连锁不平衡(LD),通过测量SVs、SNP和组合数据集的LD随物理距离的下降来分析SVs的种群频率。结果发现,与野生品种相比,栽培品种的LD下降速度更快;与SNP相比,SVs的LD下降更快;下降速度最快的是SV+SNP数据集。表明由于有害影响,SVs通常比SNP的种群频率更低。

图4 葡萄驯化相关SVs的群体遗传学

大的,独立的倒位对浆果颜色的影响

通过计算固定指数(FST)来估计SNP和SVs在基因组中的差异(图4c),在2号染色体上发现了两个异常值分别与性别决定和浆果颜色相关。其中对浆果颜色相关区域的进一步研究发现,在霞多丽中有一个4.82Mb的倒位(图5b),并有证据支持白浆果的独立起源通常是由这种倒位介导的(图5d),其导致了半合子状态的花青素合成基因MybA1和MybA2的等位基因空缺。

图5 与白色浆果相关的染色体倒位

小结

本研究首先组装了高杂合葡萄霞多丽的基因组序列,评估了该基因组中SVs类型和分布以及导致遗传半合子的SVs。随后将霞多丽与赤霞珠基因组进行综合比较,获得了一套种间SVs标准集,并以此指导、推断栽培葡萄及其野生祖先群体样本中的SVs。然后利用获得的群体SVs数据集,推断不同类型变异的选择强度,探讨了在栽培葡萄上由异交向无性繁殖转变的效应,最后研究了栽培葡萄与其野生祖先之间SVs差异特别显著的与浆果颜色相关的基因区域。 在结构变异的研究中,最首要的任务是获得到研究对象全面、准确的SVs集合,本研究中作者为了获取准确的SVs集合,利用三代测序组装了霞多丽基因组,采用长读长比对来鉴定SVs,基因组比对和短读长比对进行验证,短读长仅检测到长读长比对检测数量的62%,长读长检测的SVs中75%得到另外两种方法的验证。可见相比短读长利用三代测序检测的SVs更加全面准确。

参考文献:

Gaut B S, Seymour D K, Liu Q, et al. Demography and its effects on genomic variation in crop domestication[J]. Nature plants, 2018, 4(8): 512.

Zhou Y, Massonnet M, Sanjak J S, et al. Evolutionary genomics of grape (Vitis vinifera ssp. vinifera) domestication[J]. Proceedings of the National Academy of Sciences, 2017, 114(44): 11715-11720.

项目文章||高质量中国恒河猴参考基因组解析猿类特异性结构变异

2019年9月17日希望组合作项目文章以Long-read assembly of the Chinese rhesus macaque genome and identification of ape-specific structural variants为题,在Nature Communications发表。该研究利用三代测序结合多种辅助技术组装了一个高质量的中国恒河猴参考基因组,极大地改善了当前版本恒河猴参考基因组的连续性和完整性。通过与已发表的猿类基因组比较分析,首次发现了17,000个猿类特有的结构变异(ASSVs),其中包含了一系列与猿类重要表型特征相关的ASSVs。该研究成果为非人灵长类模型在生物医学研究中的应用提供了重要数据,也极大地促进了包括人类在内的灵长类进化的研究。中国科学院昆明动物所和耀喜副研究员为论文的第一作者,博士研究生罗鑫、周斌,硕士研究生胡庭和博士研究生孟晓宇为该文的共同第一作者,宿兵研究员为该文的通讯作者。希望组承担了本研究中三代测序和部分分析工作。

研究背景

在进化上恒河猴属于旧大陆猴类(Old World monkey species),与人型总科的猿类(Apes)属于姊妹群,有着共同的祖先。与旧大陆猴类相比,猿类在进化过程中有着一系列创新,如无尾、巨大的体型、脑容量和复杂性的增加、手的灵活性提升等。结构变异(SVs)在灵长类进化和疾病中起重要作用,可以通过恒河猴与猿类基因组之间的比较分析来探索在恒河猴和猿类的共同祖先中发生的功能性遗传变化。然而,目前尚缺少一个高质量的恒河猴基因组,现有的几个恒河猴基因组序列连续性差(片段化)、完整性差(许多缺口),很难对序列进行系统的识别。

高质量恒河猴基因组

研究人员利用三代测序技术(100×PacBio)结合多种辅助组装策略(101×Bionano,105×Hi-C)构建了一个高质量的中国恒河猴基因组rheMacS,同时利用恒河猴10个组织的全长转录组数据改进了参考基因组的注释。rheMacS基因组大小2.95Gb,ContigN50为8.19 Mbp,BUSCO完整性评估达93.5%,与现有的印度恒河猴基因组相比,连续性提升了75倍,填补了2万多个缺口,极大地改善了当前版本恒河猴参考基因组的连续性和完整性。

图1 rheMacS基因组与印度恒河猴组装质量对比

猿类特异性结构变异(ASSVs)鉴定

研究者在rheMacS中鉴定了53,916个SVs(图2a),其中96%(51,919/53,916)是全新的SVs,在之前使用array和NGS平台的研究中没有被观察到(图2e),可见长读长测序数据在全基因组SV检测中有巨大优势。

图2 rheMacS中的结构变异(SVs)

结合已经发表的高质量猿类基因组,首次有机会识别从共同祖先中分化以来出现在猿类谱系中的特异性结构变异(ASSVs)。通过比较基因组学方法,将rheMacS组装和三个已发表的猿类基因组、人类ZF1基因组以及狨猴基因组进行比较,筛选过滤后发现了17,000个候选ASSVs,包括13,456个删除和3,544个插入(图3a,b)。对这些ASSVs进行注释,有12,255个定位于3,412个编码基因内或附近(图3c)。其中,有25个ASSVs位于基因外显子上(共涉及32个基因),其余位于基因内含子上,提示其潜在的功能影响可能与基因表达调控有关。

图3 猿类特异性结构变异(ASSVs)

大脑调节元件中的ASSVs

利用先前发表的来自人类、黑猩猩和恒河猴的脑组织不同区域的ChIP-Seq数据和RNA-Seq表达数据,发现大量ASSVs映射到猿类与恒河猴差异增强子区域(ADEs),筛选后其中21个ASSVs对应20个ADEs具有高可信度(图4a)。使用PCR和Sanger测序对两个ASSVs进行了实验验证,发现587bp的缺失破坏了5个猿类大脑区域的ADE(4b),其编码Intersectin-2,影响网格蛋白介导的内吞作用,对神经元突触囊泡的循环起关键作用。由于ASSV干扰了ITSN2中的增强子区域,ITSN2在人类和黑猩猩中的表达明显低于恒河猴(4d),这与其增强子活性减少一致。

图4 与大脑调节相关的ASSVs

猿类特异表型性状相关ASSVs

猿类在进化过程中有着一系列重要特征创新,如无尾、巨大的体型、脑容量和复杂性的增加、手的灵活性提升等,通过进一步的分析研究人员找到了一系列与以上表型特征相关的候选ASSVs。例如位于与尾巴发育相关的CDH8基因的477 bp的缺失(图5e);与人类胎儿拇指内收相关的NALCN基因178bp缺失(图5f)等。这一系列与猿类特异性性状相关的候选ASSVs可作为研究猿类进化过程中出现的表型创新的遗传基础。

图5 猿类特异表型性状相关ASSVs

小结

该研究公布了一个高质量中国恒河猴参考基因组,极大地改善了当前版本恒河猴参考基因组的连续性和完整性。基于此恒河猴组装,通过与已发表的猿类基因组比较分析,使我们有机会识别从共同祖先中分化以来出现在猿类谱系中的特异性结构变异(ASSVs),首次发现了17,000个ASSVs,其中包含了一系列与猿类重要表型特征相关的ASSVs,如无尾、巨大的体型、脑容量和复杂性的增加、手的灵活性提升等。该研究成果为非人灵长类模型在生物医学研究中的应用提供了重要数据,也极大地促进了包括人类在内的灵长类进化的研究。