The Innovation署名项目文章|迄今为止全球首个、规模空前的植物超大基因组——兰州百合基因组(36.68 Gb)
2024年10月24日,南京农业大学园艺学院滕年军教授团队、薛佳宇副教授团队,华中农业大学园艺林学学院宁国贵教授团队与福建农林大学明瑞光教授团队等国内10多家科研团队联合公布了百合高质量染色体级别基因组,成为世界上首个正式报道的最大植物基因组。相关文章“The evolutionary tale of lilies: Giant genomes derived from transposon insertions and polyploidization”发表在《The Innovation》期刊。希望组为本研究提供了基因组测序、组装注释服务,其中生信总监孙宗毅有幸作为署名作者深入参与该大基因组的组装注释流程工作。
基因组存储了一个物种的完整遗传信息,是理解其生物学特性和进化历程的关键。自然界中,不同生物的基因组揭示了生命之树上基因组大小的巨大差异,其中一些植物拥有超大的基因组。然而,这些超大基因组的起源和形成机制却不尽相同。
百合(Lilium L.)是单子叶百合目百合科多年生植物,因其极高的观赏、食用与药用价值而备受关注。本研究利用Nanopore、Illumina和Hi-C测序技术,以及优化的组装方法,获得了36.68 Gb的兰州百合(Lilium davidii var. unicolor)超大型基因组,并解析了其形成机制和特征,也揭示了鳞茎营养物质积累的遗传基础。这一成果标志着百合的分子研究进入新时代,也是植物基因组学的重要突破性研究进展之一。论文的主要研究内容具体如下:
1. 超大基因组的染色体水平组装
流式细胞实验和K-mer分析预估兰州百合基因组的预估大小分别为38.01 Gb和37.62 Gb,杂合率为2.18%。细胞核型分析显示其为二倍体,具有12对巨型染色体。结合Nanopore、Illumina和Hi-C数据,成功组装得到36.68 Gb的基因组,Scaffold N50为2.86 Gb,96.99%的序列被挂载到12条染色体上(图1A)。注释87,501个蛋白编码基因,其中功能注释比率为89.54%。评估结果显示兰州百合的基因组的高完整性、准确性和连续性。
2. 超大型基因组的形成原因
影响基因组大小的主要因素包括重复序列的积累和基因组多倍化。兰州百合基因组中,重复序列占比高达88.31%,其中长末端重复反转录转座子(LTR-RTs)占64.40%。分析显示,兰州百合的LTR-RT在近五百万年以来发生急剧扩张,其中Copia类的扩张约一百六十五万年前达到高峰,Gypsy类的扩张则在约八十九万年前达到峰值;在更细分的亚类型层面,Athila、Retand、Tekay和Tork等亚类获得了特异性的快速扩张(图1C),这些亚类对异染色质区域有偏好,抑制重组,降低LTR-RT去除率,从而造成短时间内LTR-RT的海量插入且无法去除,形成了兰州百合超大的巨型基因组(图1B)。
全基因组复制也是基因组扩张的潜在原因。Ks分布图显示百合经历了两轮全基因组复制事件,与金钱蒲、芦笋等植物的共线性分析支持了这一推断(图1D)。基于核基因的系统发育分析,将百合置于天门冬目的姊妹群,两者分化于七千二百万年前(图1E)。基于此系统框架,尽管近缘的洋葱和大蒜都额外多经历了两轮全基因组复制,它们的基因组却不到兰州百合的一半大,表明百合在进化过程中展现出与它们不同的模式。
3. 超长基因的形成及其表达规律
兰州百合基因组中的长基因非常常见,其平均长度为57.61 Kb,而长度超过50 Kb的基因(定义为“超长基因”)占33.88%。然而兰州百合基因编码序列的平均长度仅为847.17 bp,与其他物种的编码序列长度并无显著差别,提示我们其长内含子才是形成超长基因的主要原因。对基因表达模式的分析发现,基因长度与表达水平显著相关,但趋势却是变化的:短于50 Kb的基因表达水平随基因长度变长而持续上升,而长于50 Kb的基因则表达持续下降(图1F)。我们推测50 Kb可能是限制基因转录或内含子剪接效率的转折点,这种表达变化尚未在其他物种中见到,可能为百合独有的特征。
4. 鳞茎发育的碳水化合物代谢
鳞茎是百合的重要营养储存器官,东亚地区被广泛用作药物和食品。为阐明其发育过程中的营养积累及机制,我们对不同发育阶段的鳞茎样本进行了多组学分析。结果显示,淀粉和蔗糖在发育过程中不断积累(图1G),转录组分析发现糖酵解代谢途径中的基因高表达,且具有器官特异性。此外,检测到870种代谢物,表明代谢产物多样性。代谢组与转录组的相关性分析显示碳水化合物代谢物与特定基因表达模块显著关联(图1H)。
图 1 百合基因组和多组学分析
南京农业大学为该论文的第一署名单位和通讯单位,南京农业大学钟山青年研究员徐素娟博士、已毕业硕士张心祺、吴玉峰教授,华中农业大学博士生陈润洲以及上海市农科院杨柳燕研究员为论文的共同第一作者;南京农业大学滕年军教授、薛佳宇副教授,华中农业大学宁国贵教授以及福建农林大学明瑞光教授为论文共同通讯作者;北京林业大学、海南大学、云南大学、扬州大学、山西农业大学、沈阳农业大学、北京农学院、甘肃农业大学、甘肃农科院、湖南农科院、长江师范学院、武汉希望组生物科技有限公司、江苏省栖霞百合科技小院等单位20多位合作者参与了本研究。本研究得到了国家重点研发计划(2019YFD1000400)、江苏省种业振兴揭榜挂帅项目(JBGS〔2021〕093)等资助和南京农业大学生物信息学中心高性能计算平台的支持。
在成功组装了诸如落叶松(10.97 Gb)、苏铁(10.5 Gb)及异源六倍体燕麦(10.76 Gb)等大型植物基因组之后,希望组协助南京农业大学等单位完成了迄今为止全球首个、最大植物基因组——兰州百合基因组(36.68 Gb)的组装工作,积累了超大基因组组装的经验。我们诚挚邀请您携手并进,共同揭开下一个超大基因组的神秘面纱,深入探索并解析生命的宏伟蓝图。
原文链接:https://www.sciencedirect.com/science/article/pii/S2666675824001644