The Innovation署名项目文章|迄今为止全球首个、规模空前的植物超大基因组——兰州百合基因组(36.68 Gb)

2024年10月24日,南京农业大学园艺学院滕年军教授团队、薛佳宇副教授团队,华中农业大学园艺林学学院宁国贵教授团队与福建农林大学明瑞光教授团队等国内10多家科研团队联合公布了百合高质量染色体级别基因组,成为世界上首个正式报道的最大植物基因组。相关文章“The evolutionary tale of lilies: Giant genomes derived from transposon insertions and polyploidization”发表在《The Innovation》期刊。希望组为本研究提供了基因组测序、组装注释服务,其中生信总监孙宗毅有幸作为署名作者深入参与该大基因组的组装注释流程工作。

基因组存储了一个物种的完整遗传信息,是理解其生物学特性和进化历程的关键。自然界中,不同生物的基因组揭示了生命之树上基因组大小的巨大差异,其中一些植物拥有超大的基因组。然而,这些超大基因组的起源和形成机制却不尽相同。

百合(Lilium L.)是单子叶百合目百合科多年生植物,因其极高的观赏、食用与药用价值而备受关注。本研究利用Nanopore、Illumina和Hi-C测序技术,以及优化的组装方法,获得了36.68 Gb的兰州百合(Lilium davidii var. unicolor)超大型基因组,并解析了其形成机制和特征,也揭示了鳞茎营养物质积累的遗传基础。这一成果标志着百合的分子研究进入新时代,也是植物基因组学的重要突破性研究进展之一。论文的主要研究内容具体如下:

1.  超大基因组的染色体水平组装

流式细胞实验和K-mer分析预估兰州百合基因组的预估大小分别为38.01 Gb和37.62 Gb,杂合率为2.18%。细胞核型分析显示其为二倍体,具有12对巨型染色体。结合Nanopore、Illumina和Hi-C数据,成功组装得到36.68 Gb的基因组,Scaffold N50为2.86 Gb,96.99%的序列被挂载到12条染色体上(图1A)。注释87,501个蛋白编码基因,其中功能注释比率为89.54%。评估结果显示兰州百合的基因组的高完整性、准确性和连续性。

2. 超大型基因组的形成原因

影响基因组大小的主要因素包括重复序列的积累和基因组多倍化。兰州百合基因组中,重复序列占比高达88.31%,其中长末端重复反转录转座子(LTR-RTs)占64.40%。分析显示,兰州百合的LTR-RT在近五百万年以来发生急剧扩张,其中Copia类的扩张约一百六十五万年前达到高峰,Gypsy类的扩张则在约八十九万年前达到峰值;在更细分的亚类型层面,Athila、Retand、Tekay和Tork等亚类获得了特异性的快速扩张(图1C),这些亚类对异染色质区域有偏好,抑制重组,降低LTR-RT去除率,从而造成短时间内LTR-RT的海量插入且无法去除,形成了兰州百合超大的巨型基因组(图1B)。

全基因组复制也是基因组扩张的潜在原因。Ks分布图显示百合经历了两轮全基因组复制事件,与金钱蒲、芦笋等植物的共线性分析支持了这一推断(图1D)。基于核基因的系统发育分析,将百合置于天门冬目的姊妹群,两者分化于七千二百万年前(图1E)。基于此系统框架,尽管近缘的洋葱和大蒜都额外多经历了两轮全基因组复制,它们的基因组却不到兰州百合的一半大,表明百合在进化过程中展现出与它们不同的模式。

3. 超长基因的形成及其表达规律

兰州百合基因组中的长基因非常常见,其平均长度为57.61 Kb,而长度超过50 Kb的基因(定义为“超长基因”)占33.88%。然而兰州百合基因编码序列的平均长度仅为847.17 bp,与其他物种的编码序列长度并无显著差别,提示我们其长内含子才是形成超长基因的主要原因。对基因表达模式的分析发现,基因长度与表达水平显著相关,但趋势却是变化的:短于50 Kb的基因表达水平随基因长度变长而持续上升,而长于50 Kb的基因则表达持续下降(图1F)。我们推测50 Kb可能是限制基因转录或内含子剪接效率的转折点,这种表达变化尚未在其他物种中见到,可能为百合独有的特征。

4. 鳞茎发育的碳水化合物代谢

鳞茎是百合的重要营养储存器官,东亚地区被广泛用作药物和食品。为阐明其发育过程中的营养积累及机制,我们对不同发育阶段的鳞茎样本进行了多组学分析。结果显示,淀粉和蔗糖在发育过程中不断积累(图1G),转录组分析发现糖酵解代谢途径中的基因高表达,且具有器官特异性。此外,检测到870种代谢物,表明代谢产物多样性。代谢组与转录组的相关性分析显示碳水化合物代谢物与特定基因表达模块显著关联(图1H)。

图 1 百合基因组和多组学分析

南京农业大学为该论文的第一署名单位和通讯单位,南京农业大学钟山青年研究员徐素娟博士、已毕业硕士张心祺、吴玉峰教授,华中农业大学博士生陈润洲以及上海市农科院杨柳燕研究员为论文的共同第一作者;南京农业大学滕年军教授、薛佳宇副教授,华中农业大学宁国贵教授以及福建农林大学明瑞光教授为论文共同通讯作者;北京林业大学、海南大学、云南大学、扬州大学、山西农业大学、沈阳农业大学、北京农学院、甘肃农业大学、甘肃农科院、湖南农科院、长江师范学院、武汉希望组生物科技有限公司、江苏省栖霞百合科技小院等单位20多位合作者参与了本研究。本研究得到了国家重点研发计划(2019YFD1000400)、江苏省种业振兴揭榜挂帅项目(JBGS〔2021〕093)等资助和南京农业大学生物信息学中心高性能计算平台的支持。

在成功组装了诸如落叶松(10.97 Gb)、苏铁(10.5 Gb)及异源六倍体燕麦(10.76 Gb)等大型植物基因组之后,希望组协助南京农业大学等单位完成了迄今为止全球首个、最大植物基因组——兰州百合基因组(36.68 Gb)的组装工作,积累了超大基因组组装的经验。我们诚挚邀请您携手并进,共同揭开下一个超大基因组的神秘面纱,深入探索并解析生命的宏伟蓝图。

原文链接:https://www.sciencedirect.com/science/article/pii/S2666675824001644

Science项目文章 | 科学震撼揭秘:辐射王者水熊虫,耐受极限秒杀人类上千倍!

在绚丽多彩的自然界中,有一些极端生物进化出了适应极端环境的能力,水熊虫便是其中的代表【1】。水熊虫,是缓步动物的俗称,为微小的无脊椎动物,大部分体长不超过1毫米,通体透明,有4对短而粗的足,末端有爪子、吸盘或脚趾。水熊虫分布于世界各地,亦可在真空中生存【2】。它们栖息于淡水沉渣、潮湿土壤以及苔藓植物的水膜中,少数种类生活在海水的潮间带。目前已报道的水熊虫近1500余种,它们可耐受超强辐射、高温、高压、低温、干燥等多种极端环境【3】,这些耐受特性具有很高的科学研究价值和生物医学应用价值。研究其极端环境耐受机制有助于深入理解生物体在极端环境中存活的适应性进化机制,拓展我们对生命本质和极限的认识。理解这些生物的内在保护机制对于发展基于仿生策略的极端环境防护靶点与干预措施至关重要,也是人类拓展自身生存空间必须回答的重要生物医学问题。

在诸多极端环境因素中,空间辐射损伤是制约人类深空探测和长期在轨驻留的关键医学问题之一,同时多种涉核作业环境均受到超强辐射的严重威胁。现有辐射防护策略对超强辐射缺乏有效防护,亟需在概念创新、理论提升和防护技术革新等方面做出颠覆性突破。水熊虫辐射耐受剂量是人类辐射致死剂量的上千倍【4】,是极好的辐射耐受研究对象,被科学界视为超强辐射机制研究新的突破口。但目前国际上对水熊虫辐射耐受机制的认识很不清楚。

2024年10月25日,军事科学院军事医学研究院张令强团队和杨冬团队,联合陕西学前师范学院王立志等国内相关研究团队在Science发表题为“Multi-omics landscape and molecular basis of radiation tolerance in a tardigrade”的研究论文,报道了一种高生属新种——河南高生熊虫,并建立了其实验室培养体系,绘制了高质量基因组图谱,在国际上首次整合转录组、蛋白质组响应超强辐射的动态变化及分子进化和功能特征分析,揭示了河南高生熊虫耐受超强辐射的三类机制,并分别对代表性关键分子进行了深入的功能和机制研究。希望组为本研究提供了ONT、Hi-C测序和组装注释分析服务内容。

2018年,该研究团队从河南省伏牛山采集水熊虫样品,随后率先在国内建立了水熊虫实验室培养体系,实现了规模化培养,后经形态学和分子水平鉴定,确定所培养水熊虫是一种新的高生属水熊虫物种,命名为河南高生熊虫(Hypsibius henanensis);研究团队对河南高生熊虫在多种极端环境(如超强辐射、低湿等)下的耐受特性进行了表征,发现其可耐受高达5000 Gy 的γ射线辐射(人的辐射致死剂量约为5 Gy);随后该团队产出了国际上第一套有完善注释的染色体水平高质量水熊虫基因组图谱,通过利用ONT长读长和Hi-C数据,组装生成了高质量基因组,基因组大小为112.6Mb。进一步将这些组装的contigs成功锚定到六条假染色体上,同时结合核型分析证实了河南高生熊虫种具有6条染色体(2n=12)。进一步对该基因组进行注释分析,鉴定了14,701个蛋白质编码基因,这些基因均匀地分布在染色体上。为探索河南高生熊虫超强辐射耐受机制,他们利用200 Gy和2000 Gy的12C6+重离子照射水熊虫并进行转录组和蛋白质组检测,分析得到2801个差异基因;进一步结合分子进化和功能特征分析,将河南高生熊虫的辐射耐受机制归为三大类:一是从细菌、真菌、植物中通过水平基因转移(HTG)到水熊虫中的外来基因,赋予其特殊的抗逆能力,本研究共鉴定到75个高可信的HTG基因,其中13个在辐照后发生显著上调;二是水熊虫基因组中约30%的基因是缓步动物特异的,缓步动物特异蛋白倾向于高度无序,通过相分离参与DNA损伤修复等过程;三是与其它门类共有的古老蛋白(如线粒体呼吸链组装蛋白)在水熊虫中具有特殊的辐照响应模式。

在第一类机制中,该研究团队发现了一种DOPA(多巴)双加氧酶基因DODA1,它是细菌向缓步动物水平基因转移的产物。DODA1在2000 Gy辐照条件下发生17.3倍的表达水平上调,DODA1可催化合成甜菜色素(一种此前被认为存在于植物、少数真菌和细菌中的色素【5】),甜菜色素具有很强的抗氧化活性,因此能够减轻辐射产生的大量ROS对细胞的损伤,从而赋予水熊虫辐射抗性。在第二类机制中发现缓步动物特异的辐射诱导的无序蛋白TRID1依赖其Prion-like 结构域介导液-液相分离,从而促进DNA损伤修复。在第三类机制中发现了线粒体呼吸链复合物组装蛋白BCS1基因在包括河南高生熊虫在内的多种水熊虫基因组中发生了普遍扩张,并且线粒体呼吸链复合物组装蛋白BCS1和NDUFB8在辐照后表达明显上调,从而促进线粒体NAD+再生,进而加快NAD+依赖的损伤修复蛋白PARP1介导的DNA损伤修复。令人兴奋的是,上述在水熊虫中发挥抗辐射作用的分子,转入人源细胞中后,可以显著提升人源细胞的抗辐射能力,这提示它们具有重要潜在应用前景。

河南高生熊虫超强辐射耐受机制的多组学研究思路及核心结论示意图

今天,人类仍然面临着超强辐射的严重威胁。目前的辐射防护药物仅可对低剂量辐射有一定效果。因此,如何另辟蹊径来研发新的辐射防护策略,是摆在科研人员面前的一项重要而艰巨的任务。该研究工作基于对水熊虫的抗辐射机制解析,发现了几类代谢途径的‘协同动员机制’,这为人类辐射防护的研究提供了重要理论依据和候选分子。

本论文由军事科学院军事医学研究院张令强研究员、杨冬副研究员,陕西学前师范学院王立志教授等所率团队联合完成;第一作者为军事医学研究院李磊和付业胜博士,研究生葛正平、刘世豪、郑坤、李亚琪及北京大学陈恺骐博士。

原文链接:https://www.science.org/doi/10.1126/science.adl0799

项目文章|河南农大绽放科技之花,首个gap-free桃基因组惊艳问世!

2024年9月,河南农业大学园艺学院冯建灿和谭彬教授领衔的桃生物学与种质创新团队在国际知名期刊《PlantBiotechnologyJournal》发表题为“A gap-free genome of pillar peach (PrunuspersicaL.) provides new insights into branch angle and double flower traits”的研究论文。该研究通过ONT ultra-long、Hi-C和RNA-seq等测序技术完成首个gap-free桃基因组,这为柱型桃分枝角度和重瓣花的进一步深入探索研究奠定了坚实的理论根基。希望组承担了该研究的ONT ultra-long、Hi-C和RNA-seq建库测序和组装注释工作。

桃(Prunus persica L.)是蔷薇科李属落叶小乔木植物,在世界各地广泛种植。然而,现有桃的参考基因组含有一定的缺口,也缺少特殊树型等性状的参考基因组,这使桃的基因注释及基因定位和桃树型等农艺性状改良受到限制。基于此,作者选择‘照手红’桃(ZSH,分枝角度小,花重瓣)作为研究对象,利用ONT ultra-long(203.7×)的reads长度优势和Hi-C(119.5×)数据的空间定位定向优势开展基因组组装,获得8条染色体,其中1、2、3、4、6、7这6条染色体由1条contig组成,5号染色体有2个gap,8号染色体有1个gap。在ONT ultra-long数据的填补下,所有染色体实现0 gap。在此基础上,进一步开展端粒和着丝粒鉴定,得到全部的16个端粒和8个候选着丝粒,最终成功获得1个gap-free桃基因组,大小为239.34Mb,contig N50为29.67 Mb,BUSCO评估98.88%,LTR组装指数为31.03,完整性99.63%,准确性QV=53.3,预测到24901个蛋白编码基因,其中23253个基因被功能注释(图1),这些数据表明ZSH基因组达到高质量基因组的应用标准。

图1:ZSH基因组特征展示

1.  分枝角度性状的结构变异分析及候选基因的鉴定

分枝角度是果树最重要的农艺性状之一。为了鉴定影响ZSH桃分枝角度的主要基因,作者通过ZSH与7个普通型桃(分枝角度大)基因组进行结构差异分析并检测到3523个基因的9100个变异(图2)。为了进一步确定可能参与分枝角度发育的候选基因,作者对两个普通型桃(HSM和Okubo)和两个柱型桃(ZSH和SHLZ)进行转录组分析,发现25个基因在普通型桃中的表达量高于柱型桃。其中鉴定到与分枝角度紧密相关的基因PpTAC1,与普通型桃相比,ZSH中的PpTAC1基因在启动子上缺失了11bp,外显子上插入了4422bp,导致基因移码突变,丧失功能。作者进一步通过其它10个柱型桃品种与普通型桃进行比较,发现柱型桃品种的PpTAC1编码或启动子序列中均存在变异,这些结果表明,PpTAC1基因的变异与桃分枝角度密切相关(图2)。

图2:柱型桃分枝角度小相关基因PpTAC1的鉴定

2. miR172d和PpAP2共同调控桃单/重瓣花性状形成

作者对334份自然群体进行单/重瓣花性状的GWAS分析,发现在Chr2上有显著峰,在Chr6上有次要峰(图3)。通过比较基因组和PCR验证分析,在重瓣花品种中Chr2定位位点发现miR172d基因存在5033bp和1210bp插入,随后将插入片段设计分子标记,进而在32个重瓣花和6个单瓣花中进行分子标记验证,发现在27个重瓣花品种中检测到1210bp或5033bp的插入,而在6个单瓣花品种和其他5个重瓣品种中不存在插入(‘No.18’、‘HongChuizhi’、‘Huayulu’、‘1-1-4’和‘1-2-7’)。

为了进一步鉴定与单/重瓣花性状有关的其它候选基因,作者选取‘No.18’(重瓣花)和‘Okubo’(单瓣花)以及F1群体用于鉴定候选基因。利用BSA分析确定Chr6上的一个重要位点(图3)。通过对亲本‘No.18’和‘Okubo’进行重测序分析进一步确定Pp06G22680.t1的编码区域有一个994bp的杂合缺失,而Pp06G22680.t1能够编码在花发育中起作用的转录因子(PpAP2)。通过实验验证发现994bp的缺失在所有重瓣花子代中存在,而在单瓣花的杂交子代中不存在。这一结果表明PpAP2中994bp的缺失对‘No.18’桃重瓣花性状紧密相关。对miR172d没有变异的4个重瓣花品种中验证,发现‘HongChuizhi’、‘1-1-4’和‘1-2-7’中PpAP2存在缺失变异,但‘Huayulu’没有994bp变异。

作者又对‘Huayulu’分析,发现PpAP2存在一个SNP突变(G/T)。通过烟草瞬时表达实验发现miR172d可靶向并降解PpAP2(Gtype),但因为miR172d的结合位点从G到T的突变使其无法靶向和降解PpAP2,从而导致‘Huayulu’桃的重瓣花性状。通过以上结果发现miR172d和PpAP2共同调控桃单/重瓣花性状的形成。

图3:调控桃单/重瓣花性状的基因鉴定

该研究通过完成首个gap-free桃参考基因组并对基因结构进行人工校正,以确保较高的准确性。结合比较基因组、转录组、GWAS和BSA等分析鉴定到PpTAC1、miR172d和PpAP2的变异分别参与到分枝角度、单/重瓣花性状表型调控。gap-free桃参考基因组的成功搭建为桃树及其近缘种的遗传改良提供了宝贵的基因组资源。

Nature Plants项目文章|中国农大震撼揭秘!四倍体现代月季起源与育种历史,一探究竟

2024年10月11日,中国农业大学联合康奈尔大学等单位在植物学领域国际著名期刊Nature Plants杂志上发表了题为“Haplotype-resolved genome assembly and resequencing provide insights into the origin and breeding of modern rose”的研究论文。该研究首次实现了对四倍体现代月季单倍型解析的高质量组装,通过对200多个蔷薇属野生种和月季栽培种的重测序,明确了现代月季(Rosa hybrida)的起源及育种过程。这标志着在现代月季基因组组成、变异以及重要农艺性状遗传解析方面取得了重要突破,为未来现代月季基因组选择育种和分子定向育种提供了坚实的理论基础。希望组为本研究提供了PacBio HiFi、ONT ultra-long 、Hi-C、Pore-C及单倍型组装分析服务。

现代月季(Modern rose)是蔷薇属中栽培月季的总称,通常指中国月季传入欧洲后,与多种蔷薇属植物杂交而形成的具备连续开花能力的杂交品种(R. hybrida)。中国是蔷薇属植物最重要的起源中心,在已知的200余种蔷薇属植物中,原产我国的有95种。如今,全球栽培的绝大多数月季都是四倍体现代月季,品种数量超过40000个,根据文献记载,约有8到20种不同倍性水平的野生种和古老栽培品种可能参与了现代月季的形成,但谁是真正的贡献者,长期以来众说纷纭,没有明确答案。并且,现代月季高度杂合,杂交后代分离极其严重,长期的反复杂交又导致了现代月季遗传背景相对单一,使得传统杂交方式很难获得进一步突破性的优异新品种,亟需通过现代基因组学手段厘清其起源和驯化过程,从而为开展高效的基因组选择育种和定向分子育种奠定基础。

近年来,多个二倍体蔷薇属植物的基因组先后被公布,包括玫瑰(R. rugosa),野蔷薇(R. multiflora),光叶蔷薇(R. wichuraiana ‘Basye’s Thornless’),以及被认为是现代月季重要祖先之一的中国古老月季‘月月粉’(R. chinensis ‘Old Blush’)和‘月月红’(R. chinensis ‘Chilong Hanzhu’)。然而,现代月季的基因组信息依然长期未解。主要原因在于,现代月季具有高倍性,即大多数为四倍体;基因组高杂合度、序列高度重复,呈现出节段性异源多倍体(Segmental allopolyploid)的复杂特征。这些因素使得对其基因组的解析极具挑战性。

2017年,中国农业大学月季发育与品质创新团队牵头,针对四倍体现代月季‘萨曼莎’(Samantha)的基因组组装开展了创新性研究。‘萨曼莎’是一个经典的切花品种,花型高芯翘角、花朵大小中等、花色鲜红、连续开花能力强,具备现代月季的典型特征。同时,‘萨曼莎’具有清晰的杂交育种历史,在前期研究中建立了病毒诱导的基因沉默、稳定转化和基因编辑等技术体系,可视为四倍体现代月季研究的模式材料,也使‘萨曼莎’成为开展基因组研究的理想材料。

本项研究通过使用103 Gb(52.3X) PacBio HiFi reads,237 Gb(120.2X) ONT ultra-long reads,140 Gb(71.0X)MGI paired-end reads,543 Gb(275.5X)Hi-C reads 和43 Gb(21.8X)Pore-C reads,组装了四倍体现代月季‘萨曼莎’(Samantha)的基因组。最终组装的单倍型基因组大小为1971Mb,contig N50长度为37.76M,通过Pore-C技术克服了同源区段难以区分的技术难题,将91.6%的contigs组装到28条染色体上,并且进一步校正了Hi-C比对的偏好性。通过对基因组组装质量进行评估,发现二、三代数据分别回比到基因组的比对率为99.76%和99.95%,BUSCO达到98.7%,LAI值高达21.93。‘萨曼莎’的基因组中59.32%为重复序列,同时注释了141827个基因,其中91.79%能够被数据库注释。最终,成功组装出了高质量的四倍体现代月季单倍型基因组(图1),其组装质量要远优于已发表蔷薇属基因组,为现代月季及其他复杂基因组结构物种的高质量基因组组装提供了有效的创新技术方案。

图 1. ‘萨曼莎’月季的基因组图示

针对现代月季复杂群体结构和遗传组成问题,研究团队通过对200多个蔷薇属野生种、过渡品种以及现代品种进行了全基因组重测序,系统解析了月季的遗传组成。明确了月季组(section Chinenses)在现代月季育成中的关键作用,尤其是中国原产香水月季(R. odorata)对其遗传背景的显著贡献(图2)。研究还发现,‘月月粉’(R. chinensis ‘Old Blush’)、光叶蔷薇(R. wichuraiana)、法国蔷薇(R. gallica)、麝香蔷薇(R. moschata)和腺果蔷薇(R. fedtschenkoana)等品种分别对‘萨曼莎’的遗传组成做出了不同程度的贡献。研究团队深入分析了与连续开花、花序分生组织与花器官发育、花色、衰老、生长、抗病性以及皮刺形成等关键性状相关的基因,发现这些基因在现代月季驯化和人工选择过程中发生了定向选择,揭示了现代月季在驯化和育种过程中逐步形成的遗传机制(图3)。综上所述,研究团队不仅系统地揭示了现代月季的遗传基础和驯化过程,还极大推动了月季的育种研究,为未来观赏园艺作物的遗传改良和育种工作提供了重要的思路和参考。

图2. 233份蔷薇属植物的群体结构分析

图3. 现代月季人工驯化选择位点

中国农业大学高俊平教授、马男教授和美国康奈尔大学费章君教授为文章的共同通讯作者。中国农业大学张钊教授、杨拓博士、刘洋博士、吴杰博士,康奈尔大学的吴珊博士和孙宏贺博士,深圳职业技术大学的李永红教授为该论文的共同第一作者。中国农业大学林涛教授和北京市园林绿化科学研究院辛海波博士和卜燕华博士对论文工作亦有重要贡献。

该研究得到国家自然科学基金委、教育部111计划、农业农村部产业技术体系、北京市科委科技创新服务能力建设计划、深圳市科技创新局基础研究项目以及国家资助博士后研究人员计划的支持。

Nature Genetics | 朱玉贤院士团队发布首个棉花基因组完整图谱,阐述棉族独特折叠胚胎形成的分子与演化机制

植物种子及其周围结构提供的营养维持了人类文明的延续与发展。植物种子胚胎是营养的储存器,展现出丰富的结构多样性,反映了植物在进化过程中对环境适应的独特策略。1946年,早期植物学家A. C. Martin根据种子胚胎大小和形态特征,将植物种子胚胎划分为10种类型 (Martin, 1946),其中被子植物的胚胎通常表现为叶轴型(Foliate axile types, FA),包含了四种基本类型,即Spatulate(FA1)、Bent(FA2)、Folding(FA3)和Investing(FA4)。棉花(锦葵科植物)作为全球最重要的经济作物之一,具有复杂折叠的叶轴型胚胎,一般情况下,其子叶通过多层折叠完全包裹胚轴和胚根。与锦葵科近缘物种木槿相比,棉花显然经历了种子胚胎形态革新,从简单折叠胚(FA3)演变成复杂折叠胚类型(complex FA3),这种复杂折叠胚胎被认为是被子植物中发育最完全、最复杂胚胎类型(图1)。胚胎复杂折叠不仅能够保护胚根和胚轴,而且种子变大,能在有限种子空间内包裹最多的子叶从而提升储存营养资源的容量。同时,这一结构还与种子萌发、休眠及对环境的适应性密切相关 (Fryxell, 1978)。然而,棉花复杂折叠胚胎的发育过程及其背后的分子机制尚未被研究。

自朱玉贤院士团队与合作者在2012年首次公布雷蒙德氏棉基因组以来,棉花基因组学取得了一系列重要进展,推动了功能基因组学研究以及棉花复杂性状的解析 (Du et al., 2018; Huang et al., 2021; Huang et al., 2020; Wang et al., 2012)。然而,棉花基因组的准确与完整解析,尤其是复杂的转座子序列及其生物学功能,尚需深入研究与探讨。

图1 棉花通过种子胚胎形态革新产生复杂折叠胚胎

2024年8月15日,武汉大学/北京大学教授朱玉贤,北京大学博士后黄盖(现为中国科学院遗传与发育生物学研究所副研究员)为主要作者在国际知名期刊Nature Genetics发表题为A telomere-to-telomere cotton genome assembly reveals centromere evolution and a Mutator transposon-linked module regulating embryo development的研究论文。该研究通过解析首个端粒到端粒的雷蒙德氏棉(Gossypium raimondii,四倍体棉的祖先种)基因组完整序列图谱,揭示了其独特的着丝粒结构类型及表观图谱。通过深入挖掘功能性转座子,发现由三个新分子(miR2947-DNA转座子MuTC01-加倍基因LEC2b)组成的三级小RNA调控机制,从而阐明了棉花复杂折叠胚胎形成的分子调控与演化机制 (Huang et al., 2024)。

图2 朱玉贤院士团队在棉花基因组和功能研究取得重要进展

该研究整合了最新的测序技术和算法(希望组为本研究提供了NGS、超长和HiFi测序。),成功获得了776 Mb首个二倍体棉花基因组完整序列图谱。与以往基因组版本相比,首个棉花基因组完整序列图谱具有高连续性和完整性,成功组装了着丝粒和端粒序列,并对转座子和基因进行了更精确和完整的注释,识别出53167个蛋白质编码基因,显著高于以往版本(37505–40976个基因)。此外,T2T基因组还修正了之前版本中的错误序列,主要是涉及着丝粒、端粒等复杂区域。通过深入解析着丝粒序列,发现了雷蒙德氏棉着丝粒独特的结构与组成(图3)。雷蒙德氏棉着丝粒主要由LTR类转座子构成,缺乏短着丝粒微卫星序列,展现出与其他植物显著不同的特征。此外,雷蒙德氏棉的着丝粒缺乏典型的核小体有相位的排布规律,这一差异主要源于其着丝粒的形成过程直接受到长末端重复逆转录转座子入侵的影响。

图3 雷蒙德氏棉基因组具有独特的着丝粒结构

基于基因组完整序列图谱,研究者对棉花转座子进行精准鉴定,得到了872549条非冗余转座子序列。棉花含有丰富的TIR类转座子,其中Mutator家族是最主要的TIR类型。转座子元件表达分析发现,只有约2%的序列编码了具有转录活性的转座子,而在棉花胚胎发育晚期有88个转座子在子叶阶段表现出组织特异性表达特性(图4)。这些具有组织特异活性转座子中,仅DNA MuDR转座子(命名为MuTC01)能够产生最丰富的正负链小RNA,是反式作用siRNA产生位点。分析发现,MuTC01起源于DNA转座子Mutator家族,在全基因组中具有34个同源拷贝,只有MuTC01能产生高丰度的siRNA,预示MuTC01可能通过siRNA在棉花胚胎发育过程中发挥作用。

图4 转座子功能分析揭示了胚珠特异表达并产生siRNA的MuTC01转座子

通过靶向预测以及降解组分析,他们发现MuTC01受棉花特异的miR2947靶向切割产生有相位的siRNA(图5)。进一步通过CRISPR–Cas9基因编辑技术,对棉花的miR2947和MuTC01进行基因突变实验。电镜观察成熟胚胎形态显示,突变体mir2947mutc01都表现出胚胎发育异常表型,子叶没有被完整包裹和折叠。

图5 miR2947靶向MuTC01产生小RNA调控棉花胚胎折叠

通过对棉花胚胎发育轨迹进行切片观察(图6),显示棉花突变体 mutc01mir2947均会导致胚胎折叠异常的表型,特别是在胚胎发育后期(开花后23天以后)变得尤为明显。这些结果表明 miR2947–MuTC01调控模块在棉花胚胎发育中起到关键调控作用,突变体胚胎形态与近缘种木槿相似,表明miR2947–MuTC01 调控模块很可能是棉花胚胎复杂折叠类型形成的关键因素。

图6 棉花突变体胚胎发育轨迹切片观察

为进一步探究miR2947–MuTC01调控模块下游的靶标,他们结合靶位点分析、转录分析以及切割位点验证等实验,确定MuTC01产生的22-nt siRNA(命名为siRNA_22nt)能够靶向棉花LEC2b基因(图7)。系统演化分析发现,LEC2基因起源于棉属全基因组加倍事件,在棉花中有两个拷贝,分别命名为LEC2aLEC2b。与拟南芥、可可同源的拷贝为LEC2a,棉花独特的基因为LEC2bLEC2aLEC2b在第一个外显子区域存在553 bp的变异区域,使得MuTC01能靶向LEC2b产生21-nt有相位的siRNA,而不能靶向LEC2a。两个同源基因独特的序列和调控演化暗示LEC2aLEC2b存在功能分化。

图7 由miR2947-MuTC01-LEC2b组成的三分子模块调控棉花胚胎折叠

作者进一步利用基因编辑实验创造了三个棉花突变体(图7),包括:在LEC2b的第一个外显子区域设计两个sgRNA,编辑siRNA_22nt 靶向LEC2b的区域,获得棉花突变体lec2b-2;在LEC2b外显子设计四个sgRNA,编辑LEC2b蛋白质编码区,而不编辑siRNA_22nt靶向区域,获得棉花突变体lec2b-1;在LEC2a设计两个sgRNA,编辑LEC2a蛋白质编码区,获得棉花突变体lec2a。他们通过棉花胚胎的发育轨迹进行切片观察,发现棉花突变体lec2alec2b-1在棉花胚胎发育过程中无明显的发育异常表型,而lec2b-2突变体子叶不能正确包裹胚胎,类似于mutc01mir2947等棉花突变体,且在胚胎发育后期(开花后23天以后)变得尤为明显。

作者进一步检测五个棉花突变体(mir2947, mutc01, lec2a, lec2b-1, lec2b-2)在LEC2b基因位点的siRNA表达水平(图7)。数据表明,在mir2947, mutc01lec2b-2棉花突变体背景下,LEC2b基因位点有相位的siRNA消失,而在lec2alec2b-1突变体背景下,不影响LEC2b基因位点的siRNA的产生。这个siRNA分布情况与突变体的表型完全一致。这些数据表明,miR2947–MuTC01–LEC2b三分子模块是通过LEC2b产生三级siRNA控制棉花胚胎复杂折叠,而不是通过影响LEC2b蛋白质功能而发挥作用。

作者进一步探究miR2947–MuTC01–LEC2b三分子模块的起源与演化(图8),结果表明该三分子模块同时存在于具有复杂折叠胚胎类型的整个棉族(包括棉属在内的100多个种),显著不同于其近缘物种木槿族所具有的简单折叠胚胎类型。因此,作者提出了三级小RNA调控棉族独特胚胎类型的分子和演化机制,即棉族特异的MIR2947产生第一级22-nt的miR2947,直接靶向DNA转座子MuTC01,产生第二级小RNA,再靶向全基因组加倍产生的LEC2b基因,产生第三级小RNA,从而调控棉族复杂折叠胚胎形成(图8)。这项研究系首次在植物界发现具有功能的三级小RNA调控机制,也是首次从发育角度阐释棉族复杂胚胎折叠过程以及背后的分子与演化机制。

图8 棉族复杂折叠胚胎形成的分子和演化机制

项目文章 | 深圳基因组所商连光团队基于结构变异图谱挖掘到重要耐盐优异基因

近日,中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)联合福建省农业科学院生物技术研究所、崖州湾国家实验室、厦门大学生命科学学院等单位在植物学顶级学术期刊 New Phytologist (IF= 9.4) 上发表了题为“Identification of salt tolerance-associated presence-absence variations in the OsMADS56 gene through the integration of DEGs dataset and eQTL analysis”的研究论文,该研究全面揭示了结构变异对水稻盐胁迫下基因表达和耐盐性状的重要影响,结合结构变异挖掘到关键耐盐基因OsMADS56,为水稻耐盐育种改良提供了新的优异靶位点。希望组为本研究提供优质的三代测序服务。

目前,土壤盐碱化已成为全球范围中威胁作物生长和生产力的主要环境因素之一。水稻作为全球最重要的谷类作物,时常受到盐胁迫的危害,挖掘耐盐优异等位基因,提高水稻在盐胁迫下的生产力成为农业育种的关键挑战,是实现“以种适地”的关键环节。结构变异(Structural variations,简称SVs)是遗传多样性的重要来源,对基因组的影响比起SNP更大,与许多表型变异和环境适应有关。插入缺失变异PAVs是SV一种主要类型,过去由于短读长测序的限制,PAVs很难被高效挖掘和鉴定,是未被广泛挖掘的“隐藏”的基因组变异。由于PAV和SNP并不是紧密连锁,PAV作为SNP的补充可以挖掘到更多优异变异资源。

该团队前期利用全球核心种质资源构建了群体规模最大、基因组充分注释、稻属中最为系统的图形超级泛基因组,解析了全面的基因组序列变异图谱(Shang et al., 2022);构建了核心种质群体在正常和盐胁迫下的表达谱,结合水稻超级泛基因组图谱在全基因组水平系统分析了耐盐性相关的SNP-eQTL,并成功克隆了关键耐盐新基因STG5(Wei et al., 2024),该基因优异单倍型导入到主栽品种中可以提高耐盐性,为耐盐水稻品种的培育奠定了良好的理论基础和种质材料。进一步本研究利用PAV变异挖掘耐盐新基因,评估正常和盐胁迫条件下影响基因表达的PAV,进行PAV-eQTL分析并分别鉴定到2427个和2898个正常和盐胁迫条件下的PAV影响的基因,其中盐胁迫下特异性响应的基因有1206个,为挖掘由结构变异引起的耐盐相关新等位基因提供了有价值的数据集。

图1 基于结构变异挖掘耐盐基因OsMADS56及其耐盐分子机制

利用盐胁迫下特异性响应的PAV-eGene结合群体水平的差异表达基因集,挖掘了一个位于OsMADS56基因上的PAV。这个PAV的存在导致了起始密码子ATG和第一外显子的缺失,从而降低了该基因的耐盐性。通过该基因的近等基因系、基因编辑突变体和过表达材料的耐盐性分析,表明OsMADS56基因在响应盐胁迫上发挥正向调控作用,并通过协调抗氧化酶活性调节体内活性氧的积累影响耐盐性。单倍型分析发现,在大多数耐盐品种中检测到1.0 Kb的存在-缺失变异,表明该PAV等位基因在水稻耐盐性中发挥了重要作用。另外,该基因优异的单倍型耐盐性与其他关键耐盐基因STG5SKC1表现出加性效应,为后续水稻耐盐模块耦合设计育种以应对盐胁迫提供了参考。

该研究利用水稻图形超级泛基因组结合转录组学技术,为鉴定具有功能的PAV-eQTL提供了有效的方法,这一技术使得过去难以发现的耐盐相关的PAV变异得以揭示,为耐盐基因挖掘和耐盐优异种质资源的创新利用提供了新的解决方案。同时为耐盐水稻的多基因聚合策略提供了全新的见解,使得高效、精准的水稻耐盐定向改良成为可能。这一成果将有助于提升水稻品种的耐盐性和推动水稻耐盐全基因组设计育种。

项目文章 | 基因组所商连光团队揭示转座子在水稻驯化和育种性状改良中的重要作用

中国农业科学院深圳农业基因组研究所(岭南现代农业科学与技术广东省实验室深圳分中心)联合崖州湾国家实验室、沈阳农业大学等单位在《国家科学评论(National Science Review)》(IF=20.6)上在线发表了题为“A pan-TE map highlights transposable elements underlying domestication and agronomic traits in Asian rice”的研究论文。研究基于全球野生稻和栽培稻核心种质资源,构建了群体水平、最全面和高精度的水稻泛转座子变异图谱,全面评估了转座子对水稻驯化和育种改良中的重要作用,挖掘到多个与重要农艺性状相关的优异自然变异位点,丰富了水稻育种的可用变异库,对水稻全基因组设计育种及遗传育种改良提供了重要资源。希望组为本研究提供三代测序服务。

1950年Barbara Mclintock首次在玉米中发现转座子(Transposable element,TE),并由此获得诺贝尔奖(Mclintock,Cold Spring Harbor Symposia on Quantitative Biology,1951)。长期以来,TE本身被认为是垃圾DNA,但现在它们被认为是一类DNA中不同寻常的高度重复片段,不仅在生物体内甚至生物体之间具有惊人的移动能力,也能影响基因、创造新性状、增加不同个体的独特性,更会在压力条件下被激活,并帮助生物体适应复杂多变的自然环境。大量文献表明,基因组结构变异在调控水稻农艺性状具有重要作用,而水稻基因组中的结构变异大多源自于TE。TE主要包含non-LTR(Long Terminal Repeat, SINE和LINE)型逆转座子、LTR型逆转座子(CopiaGypsy等)、TIR(Terminal Inverted Repeat)型DNA转座子(Stowaway MITE、Tourist MITE、DTC、DTA、DTT、DTM、DTH等)和Helitron型DNA转座子(Wicker et al., Nature Reviews Genetics, 2007)。高度重复的TE序列为其本身的充分注释和精确鉴定带来了挑战,极大地阻碍了TE变异对作物驯化和农艺性状的深度系统解析。得益于测序技术的进步,有机会从群体的层面上全面地研究转座子的分布特征,并揭示转座子在水稻驯化和育种中的作用。

为了获得高质量的泛TE变异图谱,本研究利用247份全球水稻核心种质资源高质量基因组,构建了大规模群体的亚洲稻泛TE变异图谱(图1),包含169,798个(647.9 Mb)衍生的TE变异,其中占比最多的是GypsyHelitronCopia家族,也是迄今为止质量最高的水稻群体水平泛TE变异图谱。

图1. 泛TE变异图谱构建

利用该泛TE变异图谱,研究人员比较了普通野生稻与籼稻、普通野生稻与粳稻、籼稻和粳稻之间的TE变异,发现TE变异显著富集在驯化和分化的选择性区域内,表明TE参与了水稻驯化和分化。进一步分析,发现在水稻驯化分化过程中,不同的TE家族富集也具有特异性,例如几乎所有的LTR、MITE和Helitron都显著富集在驯化和分化过程中,而SINE和LINE家族仅显著富集在从普通野生稻到粳稻的驯化过程中(图2)。同时,研究人员也鉴定到参与水稻驯化和分化过程的TE变异分别有3,935和2,108个,并受到这些TE变异影响的候选基因分别有2,992和1,750个(图2),包括重要抽穗基因RFT1分蘖基因RFL、D10以及粒型基因GW2DAOLG1等。例如一个Tourist MITE插入到耐冷基因LIP19的启动子区,显著影响了该基因的表达水平,功能分析和单倍型分析表明,该Tourist MITE通过影响LIP19的表达量而调控水稻的耐冷表型。

图2. TE变异在水稻驯化和分化中的重要作用

另外,基于该泛TE变异图谱,研究人员发现TE与邻近的SNPs/InDels存在完全连锁的比例较低,揭示TE变异可以作为补充提升挖掘基因的潜力。结合全基因组关联分析和群体表达数量性状位点(expression quantitative trait loci,eQTL)分析,研究人员鉴定到多个与水稻农艺性状显著相关的TE变异新位点,而这些新位点无法利用SNP数据鉴定,例如Gypsy插入显著影响耐冷下水稻的结实率(图3)。同时,研究人员利用SNP和TE的cis-eQTL分析鉴定到TE变异调控的基因3,868个,其中TE比起SNP标记特有调控的基因1,246个(图3),例如发现一个PILE TIR插入基因OsRbohB的启动子区,显著影响了该基因的表达水平,进一步显著影响了水稻的千粒重,这些结果得到了实验的验证。这些新的TE变异位点有助于挖掘更多与重要农艺性状相关的优异基因,为水稻基因组辅助育种提供了新靶点。

图3 TE变异影响水稻基因表达和农艺性状

中国农业科学院深圳农业基因组研究所商连光研究员、崖州湾国家实验室钱前院士和基因组所周永锋研究员为论文的共同通讯作者。基因组所在读博士生李笑霞、在读博士生戴小凡、副研究员贺慧英、在读博士生吕阳和在读硕士生杨龙波为论文共同第一作者。该研究得到国家自然科学基金基础科学中心、广东省自然科学基金杰出青年基金、中国农业科学院科技创新工程科学中心和中国农科院青年创新专项资金资助。该工作得到了基因组所、中国水稻所和崖州湾科技城超级计算平台的支持。

项目文章丨彩万志/田里团队在熊蜂缪氏拟态演化研究方面取得新进展

2024年6月13日,中国农业大学植物保护学院昆虫学系彩万志/田里团队在《科学进展》(Science Advances)以封面文章的形式在线发表了题为Does coevolution in refugia drive mimicry in bumble bees? Insights from a South Asian mimicry group的研究论文。该研究以我国本土分布的两种拟态熊蜂为模型,探究了缪氏拟态的演化历史,揭示了熊蜂缪氏拟态色的多态性与趋同进化的可能驱动因素。希望组为本研究提供了hifi和hic测序服务。

缪氏拟态是指两种或多种有毒的生物,通过互相模仿相似的警戒信号,以降低被捕食概率的互惠的拟态现象。这一现象广泛存在于两栖动物、鱼类、昆虫等诸多生物类群中。参与缪氏拟态形成的生物多具有鲜艳的警戒色,亲缘关系较远的物种间常常平行演化出相似的警戒信号并在一定区域内形成“拟态圈”。缪氏拟态是生物适应性演化的典型案例,自1879年首次被德国生物学家Fritz Müller提出后,缪氏拟态的演化历史和形成机制便成为了进化生物学领域长期以来的热点问题。由冰期避难所促进的共同多样化假说和不对称趋同进化假说是缪氏拟态形成的两大主流观点。此前人们对于昆虫缪氏拟态的研究主要集中在分布于南美洲的袖蝶(Heliconius spp.)中。而对于南美洲以外地区及其它昆虫类群的研究则相对有限。

图1 短头熊蜂-三条熊蜂拟态色型多样性及分布格局

熊蜂Bombus spp.属于膜翅目Hymenoptera,蜜蜂科Apidae,全球已记载约260种,是野生植物与温室作物的重要传粉昆虫。雌性熊蜂因尾部具有蛰针而能对抗捕食者。此外,熊蜂体表被不同颜色的体毛覆盖,呈现出鲜艳且反差强烈的体色模式(color pattern),具有警戒、拟态等功能。熊蜂是典型的缪氏拟态类群,其在世界范围内共形成了24个拟态环,是除袖蝶之外开展缪氏拟态演化历史及其形成机制研究的良好类群。该研究聚焦于我国本土分布的两种拟态熊蜂类群:短头熊蜂(Bombus breviceps Smith)和三条熊蜂物种复合体(Bombus trifasciatus species complex)(图1)。这两个类群广泛分布于喜马拉雅山脉、东南亚及我国南方。它们的分布区高度重合,且警戒体色模式高度趋同,并在不同的地区以不同的体色模式相互拟态,目前已记录有14种拟态色型,组成了熊蜂中体色多态性最为复杂的拟态系统。

作者首先组装了三条熊蜂染色体水平的参考基因组。进一步通过对这两个类群全球分布地区的样品收集,获得了代表其主要地理色型的标本样品,并对这些样品开展了基因组重测序,基于全基因组单核苷酸多态性位点(single nucleotide polymorphism, SNP)信息解析了这两种熊蜂的种群遗传结构。结果发现,短头熊蜂可被划分为六个主要的遗传谱系(图2)而三条熊蜂可被划分为七个主要的遗传谱系(图3)。有趣的是,这两个类群的体色模式的变化与其群体遗传结构并不完全吻合,比如,分配到同一个遗传谱系的个体可以展现出截然不同的体色模型,而被分配到不同遗传谱系的个体也可以具有相同的体色模式。这一结果暗示这些熊蜂体色的演化历史与其群体分化历史并不吻合,体色的地理分化并不是完全由不同地理种群间的基因交流屏障所驱动。

图2 短头熊蜂的群体遗传结构及体色模式变异

图3 三条熊蜂物种复合体的群体遗传结构及体色模式变异

进一步对两个类群的群体历史研究发现,两个物种均在更新世时期表现出一定程度种群收缩,但种群的波动与冰期-间冰期的气候波动不完全匹配(图4 & 5)。而基于MaxEnt预测的历史适生区发现两个类群在更新世冰期并没有呈现明显的适生区收缩,也没有呈现明显的避难所。这些结果暗示更新世冰期的气候变化并不是驱动这些熊蜂类群群体分化的主要因素。

图4 短头熊蜂的群体演化历史

图5 三条熊蜂群体演化历史推断

进一步对比短头熊蜂和三条熊蜂的谱系地理模式和群体历史(图6),发现这两个拟态类群之间具有不完全匹配的群体分化顺序,而在近20万年的演化历史中,三条熊蜂总具有相对更大的有效群体。因此,尽管这两个拟态类群的分布区高度重叠,并在表型水平呈现出高度趋同的体色地理变异,基因组数据却揭示它们具有截然不同的群体演化历史。总体来讲,本研究提供的证据说明冰期避难所并不是驱动这两种拟态熊蜂群体分化与拟态体色进化的唯一因素,不同地区的捕食者与气候带来的强烈的本地选择以及熊蜂相对较弱的扩散能力可能与冰期气候变化共同作用,驱动了这些熊蜂的群体分化与缪氏拟态多态性的演化。

综上所述,该研究基于群体基因组学手段,明确了短头熊蜂和三条熊蜂各自的谱系结构并进行了种群划分。结合两个物种的种群分化顺序,种群历史波动等证据,认为这一南亚地区熊蜂拟态环具有复杂的演化历史及模式,其拟态格局的形成受多种地理、气候、生物因素的共同影响。该论文首次在熊蜂中基于大规模群体基因组数据开展了拟态演化研究,也是昆虫中除袖蝶外的类群首次开展此类研究,其结果为缪氏拟态这一生物重要适应性演化现象的形成机制提供了新的见解。

图6 短头熊蜂和三条熊蜂谱系发生及群体历史特征对比

中国农业大学为该论文的第一完成单位。中国农业大学植物保护学院博士研究生崔纪翔为该论文的第一作者,田里副教授为该论文的通讯作者。中国农业大学植物保护学院的彩万志教授、李虎教授,美国宾夕法尼亚州立大学生物系的Heather Hines博士,中国科学院动物研究所的刘山林研究员,西藏自治区高原生物研究所和墨脱生物多样性西藏自治区野外科学观测站的达娃副研究员,英国自然历史博物馆的Paul Williams博士为本研究做出了重要贡献。中国农业大学植物保护学院已毕业硕士生陈宇鑫、王超,在读博士生马玲、杨万虎也参与了此项工作。

NC项目文章|野生稻无间隙分型基因组助力开发高通量野生稻基因发掘平台

近日,中国农业科学院作物科学研究所野生稻种质资源保护与利用课题组杨庆文研究员、乔卫华研究员与北京大学现代农业研究院何航研究员课题组合作,在国际权威期刊《Nature Communications(影响因子16.6,中科院一区Top)发表了题为 “Haplotype-resolved gapless genome assembly and chromosome segment substitution lines facilitated gene identification in wild rice” 的研究论文。该研究首次组装了中国普通野生稻的无间隙染色体基因组,构建了两套覆盖野生稻全基因组的染色体片段置换系,建立了一个能够高通量鉴定发掘野生稻优异基因的平台。通过大量的QTL定位,设计案例,验证了该平台用于发掘野生稻基因的高效性,同时鉴定来自野生稻的耐盐与抗稻瘟病基因。希望组为本研究提供了Bionano测序服务。

栽培稻从二倍体普通野生稻(Oryza rufipogon Griff.)中驯化是人类农业史上最重要的事件之一。普通野生稻蕴含着大量栽培稻驯化过程中丢失或者削弱了的优异基因,是国家二级保护植物,被誉为“植物大熊猫”。但野生稻异质性强,在育种中难以直接利用,杂合度高导致基因组组装困难,且大量的优异抗性基因与不利性状连锁。基于以上原因,建立一个可用于野生稻基因发掘的高效平台十分必要。

充分利用野生稻的遗传信息进行栽培稻改良需要两个条件:1)一份高质量的参考基因组;2)一套遗传背景清晰的永久性遗传群体。对标这两个目标,首先选择了一份来自海南三亚的野生稻种质编号Y476,耐盐能力极强,对稻瘟病近乎免疫。测序检测到Y476杂合度达0.86%,所以分两个单倍型组装无间隙基因组并进行注释,两个单倍型基因组的总长度分别为411.1 Mb和411.9 Mb,与现有野生稻基因组相比,在连续性和完整性上有明显提高。参考日本晴T2T基因组,Y476基因组包含约122 Mb的插入和5,944个新基因,导致了大量的基因家族扩张,包括与抗病和籽粒调控相关的基因。

图1 Y476野生稻基因组组装及基因组比较

研究团队自2008年开始,分别以籼稻 ‘9311’ 和粳稻 ‘日本晴’ 为受体亲本,构建以Y476为供体亲本的染色体片段置换系(CSSL)。对两套置换系群体分别进行了遗传结构分析,高世代的9311/CSSL群体有近一半为单片段置换系,低世代的日本晴/CSSL群体覆盖Y476全基因组。水稻驯化过程中的关键基因如落粒基因sh4, 绿色革命基因sd1,以及颜色相关基因C1都定位到染色体上的精准位置,验证了这两套群体的QTL定位效率。随后,通过对参考基因组和CSSL群体多年多点的表型分析,鉴定出254个与农艺性状、生物和非生物胁迫相关的QTL。发现在基因组水平上,染色体结构变异(SV)对相关QTL表达的调控起着重要作用。

图2 两套置换系的遗传结构分析

作者利用构建的 “参考基因组+CSSL群体” 野生稻基因发掘平台, 鉴定出一个耐盐相关基因与一个抗稻瘟病基因,其生物学功能、SV对基因表达模式的影响在两套置换系中都相互印证。抗稻瘟病的受体激酶基因内含子上有一个7.8-kb的SV,增加了该基因的表达水平,在9311置换系中筛选出近等基因系,利用CRISPR/Cas9技术,转录组学数据以及定量PCR验证,证实该野生稻等位基因参与了OsMADS26介导的水稻稻瘟病抗性。研究结果为中国普通野生稻提供了一个单倍型无间隙参考基因组,并为野生稻新基因发掘提供了一个高效的平台,对稻种资源的创新与利用都具有重要意义。

图3 稻瘟病抗性基因鉴定与功能分析

中国农业科学院作物科学研究所已毕业博士研究生黄婧芬和北京大学现代农学院博士生张宜林为该论文共同第一作者。北京大学现代农业研究院何航研究员,中国农业科学院作物科学研究所杨庆文研究员和乔卫华研究员为该论文的共同通讯作者。海南农科院三亚南繁研究院的李亚鹏博士,崖州湾实验室的钱前院士参与了本项研究。该研究得到了国家重点研发计划(2021YFD1200100)和崖州湾实验室揭榜挂帅项目 (project of B21HJ0215)的经费支持。

项目文章 | 首个绞股蓝T2T基因组,解析达玛烷型三萜皂苷生物合成机制

绞股蓝(Gynostemma pentaphyllum),一种葫芦科的多年生藤蔓植物。在医学上有超过600年应用历史,它是超过200种达玛烷型皂苷的宝贵自然来源,具有显著的生物活性,如抗癌、心脏保护、肝脏保护、神经保护和抗糖尿病作用。

研究发现,尽管绞股蓝与人参(Panax ginseng)在进化关系上相距甚远,但其含有人参皂苷和其他结构类似的达玛烷三萜类化合物,同时绞股蓝在获取难度和达玛烷型皂苷含量方面相比人参具有优势。因此,绞股蓝在开发达玛烷型皂苷衍生药物方面,具有极大的应用前景。

2024年4月30日,中国医学科学院药用植物研究所郭宝林/孙超团队在Plant Communications期刊上在线发表了题为“Insights into the dammarane-type triterpenoid spaonin biosynthesis from the telomere-to-telomere genome of Gynostemma pentaphyllum”的研究论文。该论文组装完成了葫芦科绞股蓝的高质量从端粒到端粒(T2T)基因组,初步探究了绞股蓝中达玛烯二醇-II合酶的催化机制,并揭示了绞股蓝和人参中的达玛烯二醇合酶为独立进化而来。希望组为本研究提供了ONT超长、Bionano测序和T2T组装服务。

1.高质量绞股蓝T2T基因组组装

组装使用了30.54 Gb(~51x)的PacBio HiFi数据,103.71 Gb(~173x)的ONT超长数据,65.63 Gb(~109x)的Hi-C以及Bionano数据,最终生成了一个高质量绞股蓝端粒到端粒(T2T)基因组(Gp_T2Tv1.0),其总长度为599.38 Mb,成功识别了11条染色体的所有22个端粒(CAATAAn)和11个着丝粒。

通过多种方法对Gp_T2Tv1.0的准确性和完整性进行评估,BUSCO评估基因组完整性达到98.70%,LAI值为14.89,11条染色体的平均Qv值达到36.57,这些表明了基因组组装碱基水平的准确性和完整性。Illumina、HiFi、ONT超长reads的比对率均超过99%,且Bionano光学图谱在所有组装染色体上均显示出高度一致性。在基因组中预测了26,003个蛋白编码基因,平均编码序列大小为4,567 bp,平均每个基因有5.38个外显子。此外,着丝粒区域主要由68%的转座子元件和32%的串联重复序列组成,这些区域在11条染色体之间的长度和结构组成上存在显著差异。

2.GpOSC1通过环化催化2,3-氧化鲨烯形成达玛烯二醇-II的机制

在萜类化合物生物合成中,由氧化鲨烯环化酶(OSCs)催化的2,3-氧化鲨烯的环化是萜类化合物合成的第一个关键的分支点。在对绞股蓝的T2T基因组分析中,一共注释了十一个OSCs。通过酵母表达系统、本氏烟草的瞬时基因表达系统以及相色谱-质谱(GC-MS)分析证明,GpOSC1能够通过环化催化2,3-氧化鲨烯形成达玛烯二醇-II(dammarenediol-II)。

为了更深入地了解GpOSC1(下文称为GpDS)的催化机制,基于GpOSC1的3D结构与达玛烯二醇-II的分子对接结果和保守序列(图1D),构建了GpDS的氨基酸残基Y259H、W418A、D485N、C564A、S412F、H479N和C486A突变体。单点突变体D485N、S412F、W418A导致活性完全丧失,而C486A、C564A、H479N、Y259H突变体的活性显著降低(图1E)。结果表明,GpDS活性位点的几个残基在酶活性中起着至关重要的作用,可能是通过与底物相互作用和塑造整体构象来实现的。这些发现与之前关于人参(P. ginseng)中的达玛烯二醇-II合成酶(DS,ID: ACZ71036.1)的报道相一致,表明GpDS与PgDS具有相似的催化机制。总的来说,我们推测酸性残基D485通过作为质子供体来启动2,3-氧化鲨烯的环化,而C486和C564通过与D485形成氢键来增加其酸性。在VWCYFR motif中的Y259残基对于稳定中间阳离子和促进达玛烯二醇-II的形成至关重要。

3.探寻达玛烯二醇-II合成酶(DS)的起源和进化轨迹

为了研究开花植物中DS的起源和进化轨迹,结合系统发育和共线性分析提出了一个OSC进化的模型(图1F)。通过对来自115个植物的428个OSC序列进行全面的系统发育分析,发现基础被子植物无油樟(Amborella trichopoda)含有一个单独的OSC,它与在蕨类和裸子植物中发现的环阿屯醇合成酶(CASs)具有同源性,表明被子植物中的所有OSC都是从祖先CAS-like蛋白进化而来的。剩余的OSC最初被分为两个主要分支,分别命名为分支A和分支B。每个分支都包含了来自被子植物主要分类群的物种衍生的OSC,这表明大多数被子植物在A. trichopoda分化后共享了一个共同的OSC基因复制事件。复制事件之后,在核心真双子叶植物中,同源OSC基因A和B呈现出了三分支的进化模式,亚分支A1、A2和A3从分支A进化而来,而亚分支B1、B2和B3则从分支B进化而来。OSCs的系统发育分析表明,B2亚分支经历了显著的新功能化,其中葫芦科家族的GpDS位于该亚分支的β-香树脂合成酶(bAS)基因内。相反,在B3亚分支中,来自五加科的PgDS的多功能OSC聚类在一起。因此推测在G. pentaphyllum和P. ginseng中,DS是独立进化的。

总之,该研究完成了绞股蓝的高质量T2T基因组组装,并对基因组中鉴定出的11个候选OSCs基因中的一个DS进行了功能表征,为解析达玛烷型三萜皂苷生物合成机制提供了参考意义,有利于绞股蓝在达玛烷型皂苷衍生药物方面的开发应用。