希望组参与全球首套多组学标准物质“中华家系1号”的最新研究成果!

生物医学研究已经步入大数据和大科学时代。一方面,多组学数据分析已成为生命科学前沿领域最重要的研究工具之一,多维度数据挖掘与整合分析,可以帮助科学家实现从基因组到表型组、贯穿微观和宏观尺度的系统分析,极大提高了人类解读复杂生命系统的能力,对更加深刻、精准地破解肿瘤、遗传病等各类疾病的发病原因与微观机制,寻找更有效的干预手段奠定了重要基础。另一方面,要破解人类健康、生命起源等重大科学问题,需要进行全球合作,开展分布式的国际大科学计划。然而,没有高质量的数据生成、高可靠的数据分析与整合以及全球科学界一致认可的统一标准,多组学数据分析研究就失去了稳固的“地基”,全球范围的生命科学国际大科学计划也将无从谈起。如何解决类似的难题?研发国际科学界广泛认可的多组学标准物质至关重要。

北京时间2023年9月7日晚,国际学术期刊《自然·生物技术》(Nature Biotechnology)在线发表了由复旦大学/上海国际人类表型组研究院石乐明、郑媛婷团队联合中国计量科学研究院方向、董莲华团队,国家卫健委临床检验中心李金明、张瑞团队共同研发的全球首套多组学标准物质“中华家系1号”的最新研究成果。同期刊发的2篇科研论文分别聚焦:“使用基于中华家系1号标准物质的相对定量进行多组学数据整合(Multi-omics data integration using ratio-based quantitative profiling with Quartet reference materials)”和“中华家系1号 RNA标准物质与基于比值的分析方法提高了转录组数据的质量(Quartet RNA reference materials and ratio-based profiling for assessing and improving the quality of transcriptomic data)”。这也标志着中国科学界自主研制、获批为“国家一级标准物质”的“中华家系1号(Quartet)”多组学标准物质的研发和效用得到了国际同行的认可,开创了生物医学“度量衡”新体系,将提升生命科学创新的源头质量,为全球推进人类表型组计划奠定坚实的标准基础。

标准物质是高质量生物医学创新研究的“标尺”与“砝码”

在生命科学研究中,针对相同研究样本在不同平台、不同实验室、不同批次所产生的组学数据往往存在“批次效应”,导致不可重复数据和错误结论,严重影响科研结果的可信度与质量。而现实生活中,类似“批次效应”的危害更大:在临床检验中,同一个指标在不同的医院检验结果会出现差别,这种数据差别一旦过大甚至会导致错误的临床治疗决策,耽误疾病的预防和诊治。

要解决批次效应这一影响生命科学与生物医学多组学研究源头质量的“拦路虎”,就必须研发相应的标准物质。标准物质是指具有足够均匀性和稳定特性的物质,可作为生物分析研究的“标尺”与“砝码”。在生物医学研究中,标准物质可用于评估不同实验室、不同平台、不同批次的数据质量,有助于排除实验条件和技术差异带来的误差,确保数据的一致性和可靠性。而多组学研究的普及,亟需科学界研发多组学标准物质。

统一的标准是生命科学领域国际大科学计划全面推进的关键基础

由于测量和研究的对象涉及到人类自身,因此生命科学领域的大科学计划与其他学科领域存在显著差别。分布式,即在不同大洲和国家各自实施,而不是集中式地开展研究是生命科学领域国际大科学计划的主要组织模式。这就对相关大科学计划在科研和实施过程中所参照的标准和质量控制提出了极高的要求。基于公认的基准——标准物质,统一相关研究的测量标准和数据标准,使得全球不同实验室针对同一类研究的数据可以参比,是生命科学领域能够实质性开展大科学计划的重要前提和基础。

作为人类基因组计划之后,生命科学领域的下一个战略制高点和重大科学计划,人类表型组计划在规划之初就把研发标准物质和统一全球科研标准作为重中之重。在国家和上海市支持下,中国相关科研团队在人类表型组的精密测量、标准物质研发、质量控制、数据处理等各个方面在全球范围内率先开发和制定相关SOPs、标准和质控体系,并通过国际和中国两大协作组网络,推动协同全球不同地区的实验室在同一标准下开展表型测量与研究。

相关团队已经完成了对2万余种表型开展测量的质控标准研发与SOP编制工作。2021年10月,由石乐明教授牵头起草的国际标准ISO/TS 22690:2021 《基因组信息学 高通量基因表达数据可靠性评估》(Genomics informatics—Reliability assessment criteria for high throughput gene—expression data)发布。该标准规定了高通量基因表达数据的可靠性评估标准,适用于基因芯片、新一代测序的基因表达数据的准确性、复现性、可比性的评估应用。同年10月,在上海市市场监督管理局的指导下,“上海市标准化创新中心(国际人类表型组)”获批成立,成为上海市首批6家新型标准化技术组织单位之一,正在全面引领国内外人类表型组标准化研究与创新。

此次“中华家系1号”多组学标准物质最新研究成果的国际发表,是中国科学家引领人类表型组计划实质性推进所作出的又一里程碑式的贡献。可以说,在人类表型组科研质量控制与标准体系构建中取得的一系列先发优势,进一步奠定了中国科学界在人类表型组计划中的引领地位。希望组为本研究提供三代测序和分析服务。

“二十年磨一剑”,打造全球首个多组学标准物质

石乐明教授团队二十年来,始终致力于解决多组学研究质量控制的核心难点,他于2004年创立国际MAQC组学大数据质量控制联盟,持续聚焦基因芯片、转录组测序、基因组测序的数据产生、分析的可靠性等关键问题,分别于2006年、2010年、2014年和2021年在《自然·生物技术上》以4个专辑发表,促进了有关国际标准的制定和多组学数据分析的科研质量跃升。
2016年以来,复旦大学、中国计量科学研究院、国家卫生健康委临床检验中心等机构科学家,共同完成了全球首套多组学标准物质“中华家系1号”研制,创建了“比例定量”的多组学测量新模式,显著提高组学测量在不同实验室、不同平台的数据可比性,为发起人类表型组国际大科学计划奠定质控基础。

在“中华家系1号”研发成功之前,全球尚无任何一种生物学标准物质能够具备多组学研究需要的特性。作为全球首套多组学标准物质,“中华家系1号”涵盖了同一来源样本的多种分子水平的特性,如DNA、RNA、蛋白质、代谢物等。这些标准物质的引入为生物医学研究和临床应用提供了可信赖的计量标准,为高质量、高可靠性的多组学研究提供了坚实基准。

“中华家系1号”多组学标准物质,源自复旦大学领导建设的泰州大型人群队列中的一个同卵双胞胎家庭的永生化B淋巴母细胞系。“中华家系1号”是国际上首套包括DNA、RNA、蛋白质、代谢物在内的多组学标准物质,旨在确保分子表型组数据跨批次、跨实验室、跨平台、跨组学的可比性和准确性。其中,DNA、RNA标准物质已经获得了国家市场监督管理总局颁发的8项国家一级标准物质证书(GBW 099000-GBW 099007),是我国首次获批的组学标准物质,在生命科学领域开创了一种全新的标准物质研制模式。

图1:“中华家系1号”(Quartet)多组学标准物质

图2:国家一级标准物质证书(GBW 099000-GBW 099007)

在“中华家系1号”的研制过程中,研究团队通过在国内32个研究中心运用24种主流技术平台对标准物质进行了深入全面的表征,获得了包括基因组、表观基因组、转录组、蛋白组和代谢组在内的多组学大数据。在此基础上,研究团队提出了一系列质量控制指标,构建了高置信的标准数据集,为多组学技术、实验室性能、分析算法的评估提供了高质量的“基准真值”。

据悉,基于“中华家系1号”DNA和RNA标准物质,国家卫生健康委临床检验中心已于2021年和2022年分别开展了全外显子测序和转录组测序的全国科研与临床实验室的室间质评研究,参加单位超过100 家,并将逐步开展表观基因组、蛋白质组、代谢组等多组学室间质评,以促进我国科研和临床实验室多组学检测数据质量的不断提升。

据石乐明教授、郑媛婷副教授介绍,在严格遵守我国人类遗传资源管理条例并获得国家批准的基础上,上海国际人类表型组研究院和复旦大学大力推动“中华家系1号”多组学标准物质走向全球,已经在国内外100多家单位进行了广泛应用,扩大了中国标准物质的国际影响力。例如,欧洲转化医学研究先进基础设施(European Advanced Translational Research Infrastructure in Medicine (EATRIS) Plus)已经采用“中华家系1号”多组学标准物质对EATRIS-Plus联盟的多家单位在多组学数据产生和数据分析方面的性能进行客观评估。欧方正与上海国际人类表型组研究院等中国代表性机构共同探索、积极推动构建多组学生物数据质量的国际标准。

基于多组学标准物质的质量控制将保证生物医学创新源头的高质量

未来的生物医学研究中,多组学分析是一个贯穿基因型到表型的整合过程,从数据生成和数据整合程序的每个环节都会影响最终结果。因此,必须对每种组学数据从样品到结果的完整流程进行全面能力验证和质量控制。

本次发表的最新成果证明:“中华家系1号”不仅具有天然的家系关系,样本之间微小的内在生物学差异可为数据整合提供高灵敏度的可靠性评估。此外,这些基于同一来源细胞系制备的多组学标准物质包含了从DNA到RNA再到蛋白质的信息流,遵循中心法则,可用于验证整合结果是否反映跨组学分子间的逻辑关系。

在传统的基于组学标准物质的质量控制中,通常将标准数据集视为“金标准”。然而,这些数据集只能评估高置信基因组区域中的变异和稳定检出的高表达分子特征,并且受到构建时采用的技术平台和分析方法的限制,不适用于对新技术的质量评估。本研究提出了不依赖标准数据集而仅基于家系个体间生物学关系的质量评估参数:对于定量组学数据,信噪比(Signal-to-Noise Ratio,SNR)可用于评估测量系统能否识别不同样本组之间的固有生物学差异,这是转录组等定量组学分析的基本目标;对于定性组学数据,同卵双胞胎之间胚系变异的一致率和家系个体间孟德尔符合率,可以实现在全基因组范围内对变异检测准确性的客观、无偏好的质量评估。通过与标准数据集的联合使用,多组学数据的质量控制体系更加完善,为各类新兴技术的质量评估提供了可能。希望组为本研究提供三代测序和分析服务。

图3:信噪比(SNR)

本次的研究成果最终提出了多组学分析的质量控制指标和整合的最佳实践建议:

每种组学数据的产生应包含标准物质,使用标准数据集以及“中华家系1号”特有的质量评估指标(信噪比、孟德尔符合率)进行能力验证;

定量组学分析需从“绝对”定量向“相对”定量转变,各批次使用固定的标准物质可有效控制批次效应;

多组学整合结果的质量可以结合家系信息、中心法则进行评估,如样本分类、跨组学特征关系识别的准确性等。

多组学分析在生物医学研究中具有广泛的应用前景,为了确保结果的准确、可靠、可重复,研究人员需要遵循质量控制和最佳实践建议。这一研究为多组学领域的规范化、标准化发展奠定了坚实基础,指明了提高多组学分析质量和可信度的重要途径,对促进多组学研究的高水平、高质量发展具有重要意义。

图4:Quartet多组学项目概览

RNA标准物质有效提高临床应用中检测差异表达的能力

RNA测序(RNA-seq)是转录组差异分析的常用技术,广泛应用于生物医学研究中,以发现临床诊断、预后和治疗的生物标志物。随着基于转录组的生物标志物发现成果不断涌现,RNA-seq技术将逐步成为临床常规检测项目,例如通过检测差异基因表达辅助临床治疗决策。这对RNA-seq的检测结果提出更高的可靠性要求,以提高疾病亚型间较小的差异表达的能力,提高临床差异表达的检测准确性。

在本次发表的论文“中华家系1号”RNA标准物质与基于比值的分析方法提高了转录组数据的质量”中,研究团队指出,RNA标准物质是评估RNA-seq数据可靠性的宝贵工具,可在实验室批次内有效性和跨批次可重复性两方面对其可靠性进行客观评估。批次内有效性是在相同批次或实验室内的分析结果达到技术所能够达到的最佳水平,而跨批次可重复性是不同平台、实验室或批次间分析结果可重复,并且不受批次效应影响,跨批次数据整合后的结果与单批次结果可重复。“中华家系1号”RNA标准物质,具有微小的样本间差异、高度稳定性、长期可用性和易于生产性等特性,可用于临床应用场景下的能力测试和方法验证。

研究团队整合了不同文库构建策略、不同实验室、时间生成的21个批次RNA-seq数据集,在全转录组水平构建了基于比值的标准数据集,提供了跨平台和跨实验室数据评估的“基准”。此外,研究团队发现“中华家系1号”样本之间微小的内在生物学差异可为跨批次的RNA-seq数据整合提供高灵敏度的可靠性评估。该研究表明“中华家系1号”RNA标准物质和标准数据集,可作为评估和提高临床和生物学领域中转录组数据质量的独特资源。

图5:Quartet RNA标准物质项目:以MQAC Sample A/B样本为参照,证明了”中华家系1号”样本间具有微小的固有生物学差异

相对定量可有效提高跨批次、跨实验室、跨平台数据的可重复性

在此次发表的2篇最新论文中,中国团队取得一个重要理论性突破,那就是发现和揭示了绝对特征定量是多组学测量和数据整合不可重复性的根源,证实了基于标准物质的比值相对定量可以有效提升数据整合的质量。这对推动从绝对定量向相对定量的范式转变,实现大规模多组学数据的有效整合利用,具有重要的里程碑意义。

不同批次和平台的绝对定量多组学数据存在较大技术变异,主要受批次效应影响,无法有效反映样本间的真实生物学差异,导致数据整合效果较差。为解决此问题,研究提出一种基于比值的相对定量策略:在每个批次内使用相同标准物质作为参照,将样本的特征表达水平转换为相对于标准物质在该特征上表达的比值。

这种相对定量方法可以显著减少技术变异,提高不同批次数据之间的可比性。基于这种相对定量数据,批次效应大幅减弱,样本分类和特征关联的识别准确性显著提高,能更好反映样本间的生物学差异。特别地,主流算法难以有效校正不平衡设计下的批次效应,而相对定量方法可以有效解决。

Multi-omics data integration using ratio-based quantitative profiling with Quartet reference materials

原文链接:https://www.nature.com/articles/s41587-023-01934-1

复旦大学石乐明教授、中国计量科学研究院方向研究员、国家卫生健康委临床检验中心李金明研究员、复旦大学丁琛教授、郑媛婷副教授为本论文共同通讯作者。复旦大学郑媛婷副教授、刘雅晴、杨竞成博士、中国计量科学研究院董莲华研究员、国家卫生健康委临床检验中心张瑞研究员,以及复旦大学田莎博士为本论文共同第一作者。

Quartet RNA reference materials and ratio-based profiling for assessing and improving the quality of transcriptomic data

原文链接:https://www.nature.com/articles/s41587-023-01867-9

复旦大学郑媛婷副教授、石乐明教授、国家卫生健康委临床检验中心张瑞研究员、复旦大学钱峰副研究员和美国FDA Joshua Xu博士为本论文共同通讯作者,复旦大学郁颖青年副研究员、侯湾湾博士、刘雅晴、王海燕博士,以及中国计量科学研究院董莲华研究员为本论文共同第一作者。

相关研究得到科技部战略性国际科技创新合作重点专项“人类表型组学数据的质量控制与标准化研究”和上海市市级科技重大专项“国际人类表型组计划”资助。研究所涉及的样本和国际合作均已获得国家人类遗传资源管理部门批准,相关数据开放获取已在国家人类遗传资源管理部门备案。

Nature Genetics! Nature! Science! Cell ! 希望组6月实现科服大满贯

署名文章 | Nature Genetics!希望组携手赖锦盛教授团队再创新里程—大型真核生物玉米T2T无间隙基因组组装

2023年6月15日,中国农业大学国家玉米改良中心、玉米生物育种全国重点实验室赖锦盛教授团队以题为“A complete telomere-to-telomere assembly of the maize genome”在国际知名期刊Nature Genetics《自然·遗传学》上在线发表了玉米全基因组所有染色体端粒到端粒完整无间隙组装结果,在复杂动植物基因组中第一个实现真正意义上的全基因组完整无间隙组装。该研究是复杂基因组组装领域工程技术研究的重大突破,攻克了复杂动植物基因组组装的最后一道难题,是基因组组装和基因组学研究的一个重要里程碑。

赖锦盛教授为该论文通讯作者,中国农业大学陈建副教授、博士研究生王子健为该论文共同第一作者。中国农业大学金危危教授、宋伟彬教授、赵海铭副教授、辛蓓蓓副教授、黄伟老师、史俊鹏博士后(现已出站),爱荷华州立大学Matthew B. Hufford教授、内布拉斯加大学林肯分校James C. Schnable教授、中国科学院遗传与发育研究所韩方普研究员和刘阳博士,以及北京希望组生物科技有限公司为该研究提供了重要帮助,希望组员工(胡江、王超)有幸成为了共同作者。该研究得到了国家重点研发计划、国家自然科学基金、海南崖州湾种子实验室、崖州湾科技城管理局、河南省科技厅以及河南现代种业有限公司的资助。希望组为本研究提供了HiFi、ONT超长测序、NextDenovo(v2.2-beta.0)初步组装和NextPolish(v1.1.0)基因组矫正服务。

玉米是世界范围内的重要作物,其基因组组装对玉米基础研究和分子育种均有重要意义。同时,玉米也是经典的复杂基因组研究的模式植物。自2009年玉米基因组草图公布以来,已有近50个不同玉米自交系基因组被组装。然而,由于玉米基因组大(与人类基因组相近),且拥有超过80%的重复序列,目前已报道的玉米基因组都存在数百或数千个“空白”区域未被解析。

Mo17自交系是经典的玉米杂种优势群Lancaster群的代表。Mo17自交系及其衍生材料在我国玉米生产中被广泛应用。赖锦盛教授团队以Mo17自交系为材料,综合利用了约237×的ONT Ultra-long和约69.4×的PacBio HiFi测序数据,完成了最新的玉米基因组组装,其大小为2,178.6 Mb,每条染色体的端粒到端粒均由一条完整连续的序列组成,碱基精确度超过99.99%。最新的组装不仅在过去高质量组装的基础上增加了1029个基因,还解锁了玉米基因组中结构最为复杂、从未被组装的基因组空白区。这是首个完整的、无间隙的玉米基因组序列,也是首个所有染色体都完整组装的复杂动植物基因组。

图1. Mo17基因组完整组装

最后,作为专门的安排,赖锦盛教授在致谢部分特别标注,用该研究成果的发表来纪念他的博士后研究阶段的导师Joachim Messing (1946—2019)。 Messing教授是国际上分子生物学先驱和“鸟枪法”测序技术的倡导发明者,是美国科学院和德国科学院院士,于2013年获得沃尔夫(Wolf)奖。
本文转载自:国家玉米改良中心

项目文章 | 希望组再次参与Nature论文工作—中国人群泛基因组

由复旦大学、西安交大、中国医学科学院等26家单位联合发布的中国人群泛基因组联盟(CPC)一期研究进展,初步构建了首个中国人群专属的泛基因组参考图谱,为破译中国人群基因密码奠定基础,为“健康中国”“精准医学”战略提供支撑。

6月14日,相关成果以《基于36个族群的中国人泛基因组参考图谱》(“A Pangenome Reference of 36 Chinese populations”)为题发表于《自然》(Nature)主刊。这也是我国学者领导的人群基因组研究首次发表在《自然》主刊。复旦大学徐书华教授、西安交通大学叶凯教授、中国医学科学院褚嘉祐教授和复旦大学陆艳副教授为该文的共同通讯作者,西安交通大学杨晓飞副教授、复旦大学博士后高扬、中国科学院上海营养与健康研究所博士生陈豪、谭昕江、中国医学科学院杨昭庆研究员、复旦大学邓恋青年研究员为论文的并列第一作者。研究工作得到了国家自然科学基金、科技部重点研发计划等项目的资助。希望组为本研究提供了部分样本的HiFi、ONT、Hi-C、Bionano和Iso-seq测序服务。

“基因组结构变异大概是生物进化中从微观到宏观演变的关键遗传基础,也是最有可能连接渐变到跃变这个‘鸿沟’的进化密码。”复旦大学校长、中科院院士金力点评,“我相信通过对基因组结构变异的高精度解析,不但能大幅提升‘基因型-表型’关联分析的功效,而且有可能最终帮助我们理解生命演化中重要性状和功能产生的遗传基础和分子机制。

独立自主完成首个中国人群泛基因组参考图谱

作为人口大国,我国巨大的人口基数和丰富的人群多样性是发展人类基因组学和精准医学的重要优势:西南部高原地区分布着众多藏缅、南亚语系族群,东西方人群在西北部丝绸之路沿线交融,苗瑶语族人群在云贵地区世代繁衍,蒙古、突厥人群曾游牧于北部风沙地,通古斯语族抵抗严寒一路向北,台-卡岱(侗台)族群的先辈亦曾穿梭于南方丛林河谷。悠久的人群历史、丰富的地理气候环境,塑造了中华民族独特的遗传多样性,构成了人类泛基因组研究不可或缺的东方画卷。构建能够代表中华民族遗传多样性的中国人群泛基因组图谱势在必行且迫在眉睫,这将极大提高捕获罕见或低频遗传变异的灵敏度和准确性,支撑服务中国人遗传多样性研究、复杂疾病分子机制研究和精准医学研究与应用。

中国人群泛基因组联盟”一期36个族群画像集

中科院院士、分子微生物学家赵国屏认为:“这一成果表明我国科学家在人类基因组学领域的研究水平得到了显著提升。我相信这项工作对我国的人类基因组学和医学中的复杂疾病遗传基础研究等领域会起到重要的推动作用。

助力遗传学、医学研究,服务人民生命健康

在第一期研究计划中,CPC对代表中国36个族群的58个样本采用最新的第三代高保真基因组测序技术进行了深度测序,结合最新的单倍型基因组组装方法,获取了116个高质量单倍型基因组,并以图基因组的方式构建了高质量中国人群参考泛基因组。该泛基因组图谱总共包含约3.01 Gb个碱基对的序列信息,在现有人类参考基因组的基础上新增了约1.9亿个碱基对的新序列,包含约590万个小变异(单核苷酸多态性变异和小规模插入/缺失变异)和约3.4万个结构变异(Structural variation, SV),涉及至少1367个蛋白编码基因复制事件等。其中,约500万个碱基对新序列存在于95%以上的单倍型中,被视为中国人群基因组核心序列,可能与中国人群特有的较为稳定的生物学功能或表型特征相关。

CPC一期核心样本地理分布及语系、族群、遗传聚类关系

同时,CPC新发现的遗传变异影响了具有潜在功能和经受过适应性进化的基因,这些基因可能与亚洲人群特有的疾病易感性及表型多样性有关,这也证实了将人群专属高质量泛基因组用于基因组学和医学研究的潜力和必要性。此外,研究人员在CPC参考图谱中发现了相当大比例的古人来源基因序列——平均每个族群和每个样本中分别有约15Mb和约9.5Mb的古人来源新序列——这可能是前期开展大量研究却未在现代人基因组中发现的古人基因渗入序列,或将为东亚现代人基因组中的古人基因渗入研究乃至整个古DNA领域提供新的信息资料和线索。

未来,中国人群参考泛基因组不仅有助于中华民族共同体的遗传学研究,还将改变过去依赖主体基于欧洲白人的参考基因组而导致东亚特有罕见变异检出精确度难以提升的困境,应用于我国重大疾病的遗传机制解析,从而提高我国生物医学数据分析的质量和效率,服务人民生命健康。

中国人群泛基因组图谱已公开在线发布:
https://pog.fudan.edu.cn/cpc/#/;https://github.com/Shuhua-Group/Chinese-Pangenome-Consortium-Phase-I
该项研究所涉及的样本信息和数据的公开发表已获得国家人类遗传资源管理部门批准。该项研究得到了国家自然科学基金重点项目、基础科学中心、国家重点研发计划等项目的资助。

论文链接:https://www.nature.com/articles/s41586-023-06173-7
原文转载自:复旦大学

署名文章|Science! 中国科学院昆明动物研究所在灵长类进化遗传领域取得重大突破

人类长期关注灵长类动物的起源和演化。该方向研究不仅有助于回答人类起源问题,也有助于我们更多地了解人类独特身体结构特征的演变历史。非人灵长类动物在生物学、演化学、药理学等领域中扮演着重要角色,但目前仅有不到10%的非人灵长类动物的参考基因组被测序。

浙江大学生命演化研究中心张国捷教授团队联合昆明动物研究所吴东东教授团队、西北大学齐晓光教授团队和其他国内外合作者在Science杂志在线发表题为“Phylogenomic analyses provide insights into primate evolution”(基因组学分析提供了对灵长类演化的洞见)的研究论文。该论文回答了与灵长类演化相关的一系列问题。

灵长类动物演化或受物种大灭绝事件影响

据介绍,此次研究对象覆盖了50个灵长类动物物种,跨越了38个属和14个科,其中包括了之前研究中较少涉及的新世界猴和原猴;研究中有27个新的高质量基因组数据,这些新数据可以提供更多、更准确的遗传信息。全面的数据则有利于更深入地了解灵长类动物的演化历程。专家表示,这个时间距离6550万年前那次造成非鸟恐龙灭绝的白垩纪末期大灭绝事件非常近,大致临近白垩纪与古近纪交界时间。这意味着灵长类动物的演化可能受到了物种大灭绝事件的影响。

此外,研究人员通过重建灵长类的祖先核型演化过程,观察到在染色体水平上核型演化模式总体上是保守的。这表示在不同谱系之间,染色体大多数都保持了类似的结构和数量。

最新研究采用了更多染色体级别的原猴物种进行研究,弥补了之前由于数据不足而导致偏差的问题。这项研究发现,人的8号染色体对应到原猴的两条染色体上。因此,研究人员推测类人猿下目祖先以及所有灵长类祖先中的两条染色体在狭鼻类出现后融合成一条染色体,最终演变成人类8号染色体。这项研究校正了前人对人类8号染色体在灵长类物种中的起源历程的推断。

人类第8号染色体在灵长类起源过程中不同假说的示意图。张国捷课题组供图

灵长类动物大脑经历了快速演化

灵长类动物在演化过程中的大脑体积变化非常引人注目。最初的原猴亚目和眼镜猴,它们的脑容量非常有限,但随着时间的推移,新世界猴及旧世界猴出现后,它们的脑容量不断增大,最终在大猿类和人类的演化过程中,相对脑容量进一步增大。相对脑容量的增大与智力程度密切有关,同时也反映了物种演化适应环境的能力。

研究人员发现了一些基因在灵长类的演化历程中受到了强烈的正选择(即倾向于富集更多氨基酸变化)。这包括一些前人的实验研究已经发现的与大脑发育有关的关键基因,这些基因的突变会导致小鼠的大脑功能受损。此外,研究人员还发现了一些非编码区域在四个关键的灵长类演化节点(类人猿下目的祖先、狭鼻类祖先、大猿祖先和人类)中发生了加速演化。这些区域落在大脑发育相关基因的调控区域,这些结果表明了灵长类动物在漫长的演化过程中通过调节大脑相关基因的表达不断地优化大脑构造。

研究人员认为,这些发现表明在灵长类动物大脑演化成更发达形态的过程中,有很多基因和调控区域参与,这丰富了我们对灵长类大脑演化分子机制的认识。

灵长类物种脑容量演化历程及此过程中基因组上的变化。张国捷课题组和吴东东课题组合作供图

猿类尾巴丢失或与基因调控序列突变有关

尾巴是很多动物的标志性特征之一,尤其是对于一些动作灵敏的灵长类物种,长短不一的尾巴能够帮助它们稳定身体、转向和控制速度。“然而,猿类和人都失去了尾巴,这成为它们区别于其他灵长类的重要特征。研究表明,这一现象可能与一些特定的基因调控序列的突变有关。”周龙说。

在人猿共同祖先中,研究人员检测到多个基因的非编码调控区域积累了大量变异,其中包括KIAA1217。人的KIAA1217基因发生突变可能会导致脊柱和尾椎畸形,影响脊柱的正常发育;而在小鼠中,这个基因的突变则会导致尾椎数量的减少。研究人员发现,这个调控区域落在基因的增强子区域,并且与KIAA1217基因落在同一个拓扑结构关联域中,证明这个区域和基因有很强的交互作用,可能调控了KIAA1217基因的表达。

不同的灵长类有不同的饮食习惯和消化系统,有些灵长类如叶食性的疣猴喜欢吃树叶。为了适应这种饮食,它们演化出独特的前肠系统。此次研究还发现了一些关键的消化基因在疣猴的祖先受到正选择而积累了特殊的氨基酸变异,来适应这种特殊饮食的状态。疣猴演化出能够消化脂肪酸的能力,配合它们独特的前肠和肠道微生物使它们能够应付食叶性饮食。

KIAA1217基因的调控区域在猿类中的快速演化可能导致其丢失尾巴。张国捷课题组和吴东东课题组合作供图

项目文章 | Cell!李家堂团队揭示蛇类的起源与演化机制

北京时间2023年6月19日晚,中国科学院成都生物研究所李家堂团队在《细胞》杂志上在线发表论文“Large-scale snake genome analyses provide insights into vertebrate development”。该论文基于大规模多组学技术与基因编辑等研究手段,全面揭示了蛇类起源及特有表型演化的遗传机制。

中国科学院成都生物研究所博士生彭长军、昆明动物研究所吴东东研究员和成都生物研究所助理研究员任金龙为该论文共同第一作者,成都生物研究所李家堂研究员为该论文的独立通讯作者。希望组为本研究提供了三代测序、NextDenovo(V 1.0)组装、NextPolish (V1.01)矫正和注释服务。

全球蛇类约4000种,广泛分布于除南极洲外的各大洲陆地和海洋,在进化历史上处于脊椎动物演化的关键节点,是脊椎动物的重要类群。蛇类演化出了四肢缺失、身体延长、左右肺不对称发育等特殊表型,揭示这些特殊表型的遗传机制对理解脊椎动物演化历史具有重要意义。

蛇类特有性状的演化遗传机制

基于染色体水平蛇类基因组数据集构建了迄今最有力的蛇类系统发育框架,推断蛇类起源于约1.18亿年前早白垩纪,支持了蛇类是由蜥蜴演化而来的假说。

蛇类四肢缺失、身体延长、内脏器官不对称发育等重要遗传机制

基于谱系基因组与基因编辑等研究发现,蛇类PTCH1蛋白特异性缺失的三个氨基酸残基可能是其四肢缺失的重要遗传机制之一。大量编码及非编码调控元件的快速演化驱动了蛇类身体的延长。为适应身体延长,蛇类的内脏器官发生了不对称发育,如其左肺大多趋近于退化,而右肺则较为发达。蛇类丢失了控制器官对称发育的DNAH11和FXJ1B基因,是其左、右肺不对称发育的重要遗传因素。

此外,研究还探讨了红外感应蛇类和穴居的盲蛇类物种特殊表型的演化遗传机制。研究发现与热响应相关的PMP22基因和与三叉神经发育相关的NFIB基因的非编码调控元件的趋同演化是部分蛇类能够感知红外光谱的重要遗传驱动力。而盲蛇类物种则通过RPGRIP1等基因的丢失及CHIA等基因的快速演化以适应穴居生活,并形成专食蚂蚁及蚂蚁卵的食性。

李家堂团队未来将聚焦开发玉米蛇为模式动物并开展演化发育生物学研究。同时,围绕蛇毒等重要遗传资源的挖掘和运用,为抗蛇毒血清及蛇毒衍生药物的研发提供科学支撑。研究团队将推动从基础科学到应用基础科学的发展,更好地服务国家重大战略需求。

本研究得到中国科学院B类先导科技专项、国家自然科学基金等项目的资助。

相关论文信息:https://doi.org/10.1016/j.cell.2023.05.030

希望组NextDenovo助力破译迄今最大的2个动物基因组:南极磷虾(48G)和肺鱼(40G)

目前已知发表的最大的两个基因组: 南极磷虾(48G)和肺鱼(40G)的基因组组装都是由NextDenovo参与协助完成的。NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

(一)The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights

磷虾是磷虾属的软体甲壳类动物,是所有海洋生态系统的重要组成部分。南极磷虾(Euphausia superba)的生物量为3-5亿吨,是地球上最大的野生动物物种。磷虾基因组估计为42–48Gb,其庞大的基因组规模和复杂性阻碍了它的组装,并阻碍了对南极磷虾适应性遗传基础的研究。2023年3月2日,国际顶级期刊Cell上发表题为“The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights”的研究论文,揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。武汉希望组为本研究提供基因组组装服务,武汉希望组首席生信技术官胡江为共同作者。

发表期刊:Cell (IF:66.85)

研究对象:南极磷虾

主要测序技术:Hi-C、PacBio

主要完成单位:中国水产科学研究院黄海水产研究所、青岛华大基因研究院、德国阿尔弗雷德•魏格纳研究所、澳大利亚联邦科学与工业研究组织等机构

希望组贡献:提供NextDenovo组装技术支持

部分研究结果

01染色体水平基因组组装和评估

研究者利用PacBio、Hi-C结合短读长对南极磷虾(图1A)进行测序,使用NextDenovo v2.30 (https://github.com/Nextomics/NextDenovo)组装了48.01Gb的基因组,这是迄今为止报道的最大的动物基因组组装。它比墨西哥蝾螈大约大50%,比两种肺鱼大20%-30%。与120个已经组装的无脊椎动物基因组相比,该组装具有更长的contig N50(178.99kb)(图1B),scaffold N50更是达到了1.08Gb。南极磷虾基因组中的重复DNA异常丰富,使得基因组组装特别具有挑战性。研究发现,基因组组装中含有很大比例的串联重复(TRs)(25.77%),因为TRs很难组装,特别是对于长度大于50bp和高丰度的TRs(图1C)。南极磷虾基因组的重复区密度高于墨西哥蝾螈、肺鱼和两种孔雀石甲壳类动物(图1D)。该基因组组装结果表明,巨大的南极磷虾基因组可以归因于重复序列扩增。72.15%的基因组序列被鉴定为重复序列,在附加重复注释后达到92.45%,略高于报道的澳大利亚肺鱼(90.00%)(图1E)。南极磷虾、凡纳滨对虾和弗吉尼亚磷虾之间的DNA/CMC- EnSpm系统发育树显示,南极磷虾中没有显著扩张的特定分支(图1F)。

图1 南极磷虾基因组图谱及其重复序列特征

02南极磷虾环境适应的基因组基础

南极磷虾与其他真核生物一样,能够产生自我维持的昼夜节律(反馈回路)。这些包括主要的时钟抑制剂PER、TIM和CRY2以及直接调节CLK和CYC表达的三个关键昼夜节律转录因子VRI、PDP1和REV-ERB。该发现提供了磷虾生物钟的分子结构模型,证实了双反馈回路机制可能存在。进一步评估了生物节律反馈回路中基因表达的季节性差异,揭示了四个昼夜节律基因(CLKCRY1NEMOPDP1)在夏季和冬季之间的差异表达。CLKCRY1PDP1在夏季上调,而NEMO在冬季上调(图2A)。研究者在南极磷虾基因组中发现了25个显著扩增的基因家族(图2B)。12个直接参与蜕皮周期(6个家族)和能量代谢(6个家族)(图2C)。这些家族中的大多数基因都有表达,表明额外的基因拷贝具有功能(图2D)。编码卵黄蛋白(VTG)是无脊椎动物中一种重要的蛋黄蛋白,在能量需求旺盛的产卵季节提供营养库,包括CYSCPFKPKLR在内的其他能量代谢相关基因在夏季也表现出上调(图2F),PNLIPRP2的两个同源基因之一(一种消化脂肪酶基因)在冬季上调,此外,促进蜕皮和生长的基因(JHEJHE-like CXECHT10)在食物供应量高的夏季上调,而抑制蜕皮的基因(JHAMTCASP2)在冬季上调(图2F)。

图2 适应南极海洋环境的潜在基因组变化

该研究的主要技术亮点是组装有史以来最大的动物基因组,基因组中超丰富的TR DNA加剧了这一技术挑战,成为主要的生物学发现之一。该发现揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。

(二)African lungfish genome sheds light on the vertebrate water-to-land transition

肺鱼是现存最接近四足动物的近亲,并保留了由水生向陆生过渡相关的祖先特征。现存的6种肺鱼,有4种生活在非洲,1种生活在南美,还有1种生活在澳大利亚。2个不同的研究团队分别以非洲肺鱼和澳洲肺鱼为研究对象在国际顶级期刊CellNature上发表了研究成果。肺鱼基因组是迄今为止报道的最大的动物基因组(约40Gb),基因组中大量的重复序列(>60%)进一步增加组装的难度,希望组凭借领先的ONT Ultra long测序和自主开发的NextDenovo基因组组装技术分别助力两研究团队完成了高水平的基因组组装,其中,为非洲肺鱼文章提供了Nanopore测序和NextDenovo、NextPolish软件的使用,使得该超大基因组的BUSCO评估达到95%以上,武汉希望组生物科技有限公司胡江为本文的共同第一作者。

图3 非洲肺鱼

发表期刊:Cell (IF:66.85)

研究对象:非洲肺鱼

主要测序技术:Nanopore1D、BioNano和Hi-C

主要完成单位:西北工业大学生态与环境学院、中国科学院水生生物研究所淡水生态与生物技术国家重点实验室、中国科学院昆明动物研究所遗传资源与进化国家重点实验室等

第一作者:王堃、王俊、朱成龙、杨连东,任彦栋、阮珏、范广益、胡江(希望组)

希望组贡献:提供基因组测序和NextDenovo、NextPolish软件及组装技术支持

部分研究结果

01非洲肺鱼染色体基因组组装、重复序列与进化分析

研究团队利用Nanopore Ultra long、BioNano和Hi-C测序,采用NextDenovo + wtdbg2 + NextPolish策略组装,最终获得约40.05 Gb的基因组,Contig N50达到1.60 Mb;结合BioNano和Hi-C数据对基因组构建Scaffold和辅助染色体挂载,最终得到17条染色体,Scaffold N50 2.81 Gb,染色体挂载率达到99%以上。BUSCO评估显示该基因组包含了95%以上的脊椎动物完整基因。非洲肺鱼基因组如此巨大主要是由TEs的扩张引起的,非洲肺鱼基因组的61.7%(24.7 Gb)被注释为重复序列。研究团队通过分析Kimura distance估算了TE历史扩张活动,结果表明TEs,特别是反转录转座子,在过去7000万年中一直活跃。基于基因组组装和注释结果,通过对8种脊椎动物的5149个单拷贝基因进行系统发育重建,证实非洲肺鱼是与四足动物最近的姐妹谱系,非洲肺鱼和四足动物的分化时间可追溯到泥盆纪伊始,估算为419 MA。

图4 非洲肺鱼染色体水平基因组组装和进化史

02 基因改变增强了呼吸能力

肺呼吸能力的进化可能经历了三个步骤:第一步是硬骨鱼的共同祖先已具备了最初级的呼吸空气的能力(已有文献支持),本研究中检测到所有硬骨鱼中存在Sftpb同样也证实这一观点。第二步是通过诸如Sftpc的出现和邻近Foxp1的保守非编码元件(CNEs)等基因创新,肉鳍鱼类的共同祖先获得了增强空气呼吸的能力。第三步可能是进一步的基因创新,包括SftpaSftpd的出现以及Foxp2附近保守非编码元件(CNEs)的出现,为四足动物进化出呼吸系统提供了最后的关键基础。

图5 肉鳍鱼类肺呼吸功能的演变

希望组作为三代测序行业的引领者,拥有完备的三代测序平台,强大的生物信息团队,拥有自主研发且在基因组组装领域被广泛应用的NextDenovo系列算法。已为众多科研院所提供优质的测序及分析服务,积累了丰富的项目经验。

欢迎拨打电话153 8703 7487

或联系您身边的科技顾问,

或发邮件至inquiry@grandomics.com咨询!

NextDenovo软件 | 组装领先一步,发文章领先一大步!

自ONT测序数据用于基因组组装以来,适用软件一直很少,且市面上的组装软件要么极其消耗计算资源,要么组装效果非常差,该问题不仅导致大量ONT de novo项目积压、交付困难,更阻碍了高质量基因组组装及其后续科学研究,基于此希望组集团首席生信技术官胡江先生主导开发了NextDenovo软件用于解决上述组装难题。

近日,由希望组、中国科学院昆明动物研究所联合在bioRxiv预发表了题为“An efficient error correction and accurate assembly tool for noisy long reads”一文,介绍了目前广泛使用的组装工具NextDenovo,它能够快速纠正三代高错误率数据并进行后续组装,与其他类似工具相比错误更少,速度更快。

NextDenovo首先进行测序read之间的比对(图1A),然后过滤掉重复比对,同时根据比对深度分割嵌合的reads(图1B)。NextDenovo采用了kmer评分链(KSC)算法执行初始化的矫正,值得说明的是该算法也成功在我们之前发布的polish工具NextPolish中使用(图1C)。最后,从校正的区域中提取低分值区(LSR,对应高错误率区域),做进一步矫正(图1D)。进一步利用人类基因组chr.1的模拟数据和实际的生物样本测序数据,对NextDenovo、Canu(v2.0)和Necat(v0.0.1)的纠错性能进行测试。结果表明就校正速度而言,NextDenovo在模拟数据上分别比Canu和Necat快7.44倍和1.13倍,在实际生物数据上分别快69.25倍和1.63倍。对于校正后的数据大小,NextDenovo可以分别在模拟数据和实际生物数据上校正比Canu多2.21%、4.54%的数据,但比Necat少1.65%、1.00%的数据。重要的是,在模拟数据和实际生物数据上,NextDenovo校正reads的平均错误率分别比Canu低1.82%和1.31%,比Necat低0.35%和0.09%。NextDenovo校正reads的平均精度高于99%,接近PacBio-HiFi reads 准确度,而校正后reads的长度比HiFi reads长得多。总之,NextDenovo不仅纠错速度更快,而且纠错后reads错误率更低、更均匀,嵌合比例更少。

图1 NextDenovo组装示意图

研究者进一步利用NextDenovo对35名不同人种的ONT测序数据进行高质量基因组组装(其中非洲13名,东亚6名,东南亚4名,南亚6名,中东2名,欧洲2名,大洋洲1名,美国1名)(图2A)。基于单核苷酸多态性(SNPs)的主成分分析(PCA)与1000个基因组计划数据集的整合表明,35个基因组共同覆盖了现代人类存在的大部分遗传多样性。研究者首先评估了NextDenovo与Flye在人类基因组组装方面的性能(图2B)。NextDenovo和Flye组装得到的基因组大小相似(2.83 Gb),基因组覆盖率约为90.84%,但与Flye相比,NextDenovo组装覆盖了更多的单拷贝基因,保留了更多的多拷贝基因。此外,与玉米和水稻基因组组装的结果一样,NextDenovo组装比Flye组装包含更长的NGA50(大1.03-1.61倍)和更少的contigs (LGA50的68.18%-96.97%)。更重要的是,NextDenovo组装平均包含388个错误装配,约为Flye组装的70%,而NextDenovo组装的平均QV也略高于Flye组装。

图2 35个人类基因组的从头组装

片段重复(SDs)是复杂的DNA片段,具有几乎相同的序列,很难通过短读长来组装。长读长基因组测序组装技术的发展促进了SDs的检测。本研究通过使用“片段重复进化结构的Brisk推断”(BISER),确定了每个个体平均133.6Mbp的非冗余SD序列,大约相当于人类基因组的4.7%。研究结果表明,总SD大小和基因组大小之间存在显著的相关性(R2=0.9641,p<2.2e-16)。根据非洲和非非洲组装之间的SD频率差异,进一步确定了非洲特定的SD热点。结果表明,高度分化的热点在着丝粒周围区域富集(图3),这与T2T-CHM13中预测的基因组不稳定性热点一致。

长读长组装为全面发现片段重复,特别是涉及SDs的重复基因提供了希望。研究者认为这些高质量的组装应该有助于检测基因重复(图3)。特别是在10个个体(包括8个亚洲人和2个非洲人)中发现了具有开放阅读框和多个外显子的唾液淀粉酶(AMY1)基因拷贝的增加。例如,来自越南和泰国的两个人分别获得了4个和3个额外的AMY1基因,这可能有助于提高他们消化大米等淀粉类食物的能力。事实上,AMY1基因额外拷贝的获得被认为是高淀粉饮食人群的特征,尤其是东亚和东南亚人群。此外,四个基因家族簇,包括优先表达的黑色素瘤抗原(PRAME)、嗅觉受体(OR)、G抗原(GAGE)和黑色素瘤相关抗原(MAGEA),显示出具有同源基因的密集SDs簇(图3)。因此,长读测序使准确组装那些具有高度相似的同源簇特征的基因组区域成为可能,包括那些包含扩展的串联重复基因的基因组区域。

值得一提的是由于纠错步骤所赋予的高准确度,NextDenovo可以得到更多包含错误极低的连续组装。在组装ONT“超长”reads时优势更为明显,因为NextDenovo可以产生部分或接近染色体水平的组装,这不仅适用于人类基因组的组装,也适用于复杂植物基因组的组装。

图3  重复基因和SD热点的分布

总之,本研究介绍了一种高效且准确度高的适配ONT数据的组装工具NextDenovo,该工具在测试数据和真实人类基因组的组装中效果极佳,对比其他软件优势明显,在基因组组装领域应用广泛。NextDenovo软件的使用将为种群规模的长读长数据基因组组装铺平道路,从而促进利用纳米孔长读测序数据进行人类泛基因组的构建。

署名文章 | Cell!NextDenovo助力破译迄今最大动物基因组—48Gb南极磷虾参考序列

磷虾是磷虾属的软体甲壳类动物,是所有海洋生态系统的重要组成部分。南极磷虾(Euphausia superba)的生物量为3-5亿吨,是地球上最大的野生动物物种。磷虾基因组估计为42–48Gb,其庞大的基因组规模和复杂性阻碍了它的组装,并阻碍了对南极磷虾适应性遗传基础的研究。然而,最近对肺鱼和墨西哥蝾螈的研究表明,大型动物基因组组装中固有的巨大技术挑战是可以克服的。

3月2日,国际顶级期刊Cell上发表题为“The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights”的研究论文,揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。武汉希望组为本研究提供基因组组装服务,武汉希望组首席生信技术官胡江为共同作者。

目前已知发表的最大的两个基因组: 南极磷虾(48G)和肺鱼(40G)的基因组组装都是由NextDenovo参与协助完成的。NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

部分研究结果

01. 染色体水平基因组组装和评估

研究者利用PacBio、Hi-C结合短读长对南极磷虾(图1A)进行测序,使用NextDenovo v2.30 (https://github.com/Nextomics/NextDenovo)组装了48.01Gb的基因组,这是迄今为止报道的最大的动物基因组组装。它比墨西哥蝾螈大约大50%,比两种肺鱼大20%-30%。与120个已经组装的无脊椎动物基因组相比,该组装具有更长的contig N50(178.99kb)(图1B),scaffold N50更是达到了1.08Gb。南极磷虾基因组中的重复DNA异常丰富,使得基因组组装特别具有挑战性。研究发现,基因组组装中含有很大比例的串联重复(TRs)(25.77%),因为TRs很难组装,特别是对于长度大于50bp和高丰度的TRs(图1C)。南极磷虾基因组的重复区密度高于墨西哥蝾螈、肺鱼和两种孔雀石甲壳类动物(图1D)。该基因组组装结果表明,巨大的南极磷虾基因组可以归因于重复序列扩增。72.15%的基因组序列被鉴定为重复序列,在附加重复注释后达到92.45%,略高于报道的澳大利亚肺鱼(90.00%)(图1E)。南极磷虾、凡纳滨对虾和弗吉尼亚磷虾之间的DNA/CMC- EnSpm系统发育树显示,南极磷虾中没有显著扩张的特定分支(图1F)。

图1 南极磷虾基因组图谱及其重复序列特征

02. 南极磷虾环境适应的基因组基础

南极磷虾与其他真核生物一样,能够产生自我维持的昼夜节律(反馈回路)。这些包括主要的时钟抑制剂PER、TIM和CRY2以及直接调节CLK和CYC表达的三个关键昼夜节律转录因子VRI、PDP1和REV-ERB。该发现提供了磷虾生物钟的分子结构模型,证实了双反馈回路机制可能存在。进一步评估了生物节律反馈回路中基因表达的季节性差异,揭示了四个昼夜节律基因(CLKCRY1NEMOPDP1)在夏季和冬季之间的差异表达。CLKCRY1PDP1在夏季上调,而NEMO在冬季上调(图2A)。研究者在南极磷虾基因组中发现了25个显著扩增的基因家族(图2B)。12个直接参与蜕皮周期(6个家族)和能量代谢(6个家族)(图2C)。这些家族中的大多数基因都有表达,表明额外的基因拷贝具有功能(图2D)。编码卵黄蛋白(VTG)是无脊椎动物中一种重要的蛋黄蛋白,在能量需求旺盛的产卵季节提供营养库,包括CYSCPFKPKLR在内的其他能量代谢相关基因在夏季也表现出上调(图2F),PNLIPRP2的两个同源基因之一(一种消化脂肪酶基因)在冬季上调,此外,促进蜕皮和生长的基因(JHEJHE-like CXECHT10)在食物供应量高的夏季上调,而抑制蜕皮的基因(JHAMTCASP2)在冬季上调(图2F)。

图2 适应南极海洋环境的潜在基因组变化

03. 南极磷虾种群动态

研究者在大西洋区南乔治亚岛(SG)和南设得兰岛(SSI)、印度洋区Prydz湾(PB)和太平洋区罗斯海(RS)四个生物量较高的南大洋区域收集了75只磷虾,并对其进行了平均深度为17.72X的基因组测序(图3A)。研究者观察到南极磷虾地理组之间的成对FST值较低,最大群体遗传多样性指数(Fst)为1.92×10-3(图3B),然而,PCA(图3C)、MDS和NJ表明,南极磷虾的遗传结构是可识别的,特别是在SG和PB-RS之间。环境隔离(IBE)分析表明,遗传分化与环境距离显著相关(图3D)。387个自适应SNP的等位基因频率揭示了SGSSI和PB-RS组之间的不同遗传模式(图3E)。该结果表明,环境选择可能在驱动南极磷虾不同群体的遗传结构中发挥重要作用。研究者使用PSMC和PopSizeABC推断过去的有效种群规模(Ne),发现Ne从大约1千万年前急剧减少,种群规模的总体峰值约为1千万年,还观察到南极磷虾群从10万年前开始扩张(图3F)。磷虾的栖息地可能会转移到高纬度地区,但气候变化将如何影响磷虾种群规模,进而影响依赖磷虾的南极生态系统,是迫切需要解决的关键问题。

图3 南极磷虾种群动态

该研究的主要技术亮点是组装有史以来最大的动物基因组,基因组中超丰富的TR DNA加剧了这一技术挑战,成为主要的生物学发现之一。该发现揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。

使用NextDenovo软件部分应用文章分享

希望组自主研发的在三代测序基因组组装领域著名的组装工具NextDenovo软件,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势。

自软件发布以来,已被众多科研院所、企业等基因测序领域的用户熟知并采用。目前,NextDenovo软件累计下载9200余次,助力发表文章约500篇,高下载量和高引用数体现了NextDenovo软件的高成熟度,成为期刊编辑和审稿人都认可的高质量软件。

为了让更多用户了解NextDenovo的应用案例,小编挑选了6篇具有代表性的文章分享给大家。

01. The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights

发表期刊:Cell (IF:66.85)

研究对象:南极磷虾

基因组大小:48G

主要测序技术:Hi-C、PacBio

主要完成单位:中国水产科学研究院黄海水产研究所、青岛华大基因研究院、德国阿尔弗雷德•魏格纳研究所、澳大利亚联邦科学与工业研究组织等机构

希望组贡献:提供NextDenovo组装技术支持

SUMMARY:  Antarctic krill (Euphausia superba) is Earth’s most abundant wild animal, and its enormous biomass is vital to the Southern Ocean ecosystem. Here, we report a 48.01-Gb chromosome-level Antarctic krill genome, whose large genome size appears to have resulted from inter-genic transposable element expansions. Our assembly reveals the molecular architecture of the Antarctic krill circadian clock and uncovers expanded gene families associated with molting and energy metabolism, providing insights into adaptations to the cold and highly seasonal Antarctic environment. Population-level genome re-sequencing from four geographical sites around the Antarctic continent reveals no clear population structure but highlights natural selection associated with environmental variables. An apparent drastic reduction in krill population size 10 mya and a subsequent rebound 100 thousand years ago coincides with climate change events. Our findings uncover the genomic basis of Antarctic krill adaptations to the Southern Ocean and provide valuable resources for future Antarctic research.

02. African lungfish genome sheds light on the vertebrate water-to-land transition

发表期刊:Cell (IF66.85)

研究对象:非洲肺鱼

基因组大小:40G

主要测序技术:Nanopore1DBioNanoHi-C

主要完成单位:西北工业大学生态与环境学院、中国科学院水生生物研究所淡水生态与生物技术国家重点实验室、中国科学院昆明动物研究所遗传资源与进化国家重点实验室等

第一作者:王堃、王俊、朱成龙、杨连东,任彦栋、阮珏、范广益、胡江(希望组)

SUMMARY: Lungfishes are the closest extant relatives of tetrapods and preserve ancestral traits linked with the water-toland transition. However, their huge genome sizes have hindered understanding of this key transition in evolution. Here, we report a 40-Gb chromosome-level assembly of the African lungfish (Protopterus annectens) genome, which is the largest genome assembly ever reported and has a contig and chromosome N50 of 1.60 Mb and 2.81 Gb, respectively. The large size of the lungfish genome is due mainly to retrotransposons. Genes with ultra-long length show similar expression levels to other genes, indicating that lungfishes have evolved high transcription efficacy to keep gene expression balanced. Together with transcriptome and experimental data, we identified potential genes and regulatory elements related to such terrestrial adaptation traits as pulmonary surfactant, anxiolytic ability, pentadactyl limbs, and pharyngeal remodeling. Our results provide insights and key resources for understanding the evolutionary pathway leading from fishes to humans.

03. Reference genome assemblies reveal the origin and evolution of allohexaploid oat

发表期刊:Nature Genetics  (IF:  41.31)

研究对象:燕麦

基因组大小:10.76 Gb

主要测序技术:ONT ultralong  Hi-C

主要完成单位:四川农业大学、吉林省白城市农业科学院、中国科学院遗传与发育生物学研究所、四川大学、西昌学院、中国农业科学院、武汉希望组生物科技有限公司

希望组贡献:希望组参与组装注释以及部分分析工作

SUMMARY: Common oat (Avena sativa) is an important cereal crop serving as a valuable source of forage and human food. Although reference genomes of many important crops have been generated, such work in oat has lagged behind, primarily owing to its large, repeat-rich polyploid genome. Here, using Oxford Nanopore ultralong sequencing and Hi-C technologies, we have generated a reference-quality genome assembly of hulless common oat, comprising 21 pseudomolecules with a total length of 10.76 Gb and contig N50 of 75.27 Mb. We also produced genome assemblies for diploid and tetraploid Avena ancestors, which enabled the identification of oat subgenomes and provided insights into oat chromosomal evolution. The origin of hexaploid oat is inferred from whole-genome sequencing, chloroplast genomes and transcriptome assemblies of different Avena species. These findings and the high-quality reference genomes presented here will facilitate the full use of crop genetic resources to accelerate oat improvement.

04. “Omics” data unveil early molecular response underlying limb regeneration in the Chinese mitten crab, Eriocheir sinensis

发表期刊:Science Advances (IF:15.0)

研究对象:中华绒螯蟹

基因组大小:1.67Gb

主要测序技术:ONTHi-CBionano

主要完成单位:上海海洋大学水产与生命学院

希望组贡献:三代测序组装注释,Hi-C挂载和Bionano光学图谱服务。

Abstract:Limb regeneration is a fascinating and medically interesting trait that has been well preserved in arthropod lineages, particularly in crustaceans. However, the molecular mechanisms underlying arthropod limb regeneration remain largely elusive. The Chinese mitten crab Eriocheir sinensis shows strong regenerative capacity, a trait that has likely allowed it to become a worldwide invasive species. Here, we report a chromosome-level genome of E. sinensis as well as large-scale transcriptome data during the limb regeneration process. Our results reveal that arthropod-specific genes involved in signal transduction, immune response, histone methylation, and cuticle development all play fundamental roles during the regeneration process. Particularly, Innexin2-mediated signal transduction likely facilitates the early stage of the regeneration process, while an effective crustacean-specific prophenoloxidase system (ProPo-AS) plays crucial roles in the initial immune response. Collectively, our findings uncover novel genetic pathways pertaining to arthropod limb regeneration and provide valuable resources for studies on regeneration from a comparative perspective.

05. A near-complete genome assembly of Brassica rapa provides new insights into the evolution of centromeres

发表期刊:Plant Biotechnology Journal (IF:13.26)

研究对象:白菜

基因组大小:424.59 Mb

主要测序技术:ONTHi-C和Bionano

主要完成单位:中国农业科学院蔬菜花卉研究所

希望组贡献:三代测序组装注释,Hi-C挂载和Bionano光学图谱服务。

Summary: Brassica rapa comprises many important cultivated vegetables and oil crops. However, Chiifu v3.0, the current B. rapa reference genome, still contains hundreds of gaps. Here, we presented a near-complete genome assembly of B. rapa Chiifu v4.0, which was 424.59 Mb with only two gaps, using Oxford Nanopore Technology (ONT) ultra long-read sequencing and Hi-C technologies. The new assembly contains 12 contigs, with a contig N50 of 38.26 Mb. Eight ofthe ten chromosomes were entirely reconstructed in a single contig from telomere to telomere.We found that the centromeres were mainly invaded by ALE and CRM long terminal repeats(LTRs). Moreover, there is a high divergence of centromere length and sequence among B. rapa genomes. We further found that centromeres are enriched for Copia invaded at 0.14 MYA on average, while pericentromeres are enriched for Gypsy LTRs invaded at 0.51 MYA on average.These results indicated the different invasion mechanisms of LTRs between the two structures. In addition, a novel repetitive sequence PCR630 was identified in the pericentromeres of B. rapa.Overall, the near-complete genome assembly,B. rapa Chiifu v4.0, offers valuable tools forgenomic and genetic studies of Brassica species and provides new insights into the evolution of centromeres.

06. The Telomere to Telomere genome of Fragaria vesca reveals the genomic evolution of Fragaria and the origin of cultivated octoploid strawberry

发表期刊:Horticulture Research (IF:7.29

研究对象:草莓

基因组大小:220.8Mb

主要测序技术:PacBio HiFiHi-C和Bionano

主要完成单位:南京农业大学、海南崖州湾种子实验室

希望组贡献:三代测序组装注释,Hi-C挂载和Bionano光学图谱服务。

Abstract:Fragaria vesca, commonly known as wild or woodland strawberry, is the most widely distributed diploid Fragaria species and is native to Europe and Asia. Because of its small plant size, low heterozygosity, and relatively easy for genetic transformation, F. vesca has been a model plant for fruit research since the publication of its Illumina-based genome in 2011. However, its genomic contribution to octoploid cultivated strawberry remains a long-standing question. Here, we de novo assembled and annotated a telomere-to-telomere, gap-free genome of F. vesca ‘Hawaii 4’, with all seven chromosomes assembled into single contigs, providing the highest completeness and assembly quality to date. The gap-free genome is 220,785,082 bp in length and encodes 36,173 protein-coding gene models, including 1153 newly annotated genes. All 14 telomeres and 7 centromeres were annotated within the 7 chromosomes. Among the three previously recognized wild diploid strawberry ancestors, F. vescaF. iinumae, and F. viridis, phylogenomic analysis showed that F. vesca and F. viridis are the ancestors of the cultivated octoploid strawberry F. × ananassa, and F. vesca is its closest relative. Three subgenomes of F. × ananassa belong to the F.vesca group, and one is sister to F. viridis. We anticipate that this high-quality, telomere-to-telomere, gap-free F.vesca genome, combined with our phylogenomic inference of the origin of cultivated strawberry, will provide insight into the genomic evolution of Fragaria and facilitate strawberry genetics and molecular breeding.

无论您是基于三代数据的首次组装还是以提升基因组质量为出发点的二次组装,NextDenovo都可以帮您实现不同大小物种的基因组组装!而且,NextDenovo对于PacBio和Nanopore数据都有比较好的适用性,可显著提升基因组组装质量!

项目文章|Nat Commun 肖传乐/侯春晖团队建立HiPore-C技术,揭示三维基因组的单分子拓扑结构多样性和细胞异质性

高等真核生物基因组存在复杂的三维空间结构,在不同尺度下形成染色质环(Chromatin loops)、拓扑关联结构域(TADs)、活性/非活性染色质区室(A/B compartments)和染色体域(Chromosome territories)。这些结构对于基因组稳定性的维持、基因表达的精准调控具有重要作用,从而影响细胞命运决定和表型建立。经典3D基因组结构主要通过染色体构象捕获(3C)及其衍生方法(如4Cs、5C、Hi-C)以及ChIA-PET为代表的多种形式的高通量技术揭示。这些技术可以捕获细胞核内空间相邻的成对DNA序列,但无法捕获细胞群体中基因组内协同的多位点相互作用(multi-way contact)和单分子拓扑结构(single-allele topology)。此外,基因组3D结构在细胞周期、发育和分化过程中动态变化,并与多个基因及调控区间的染色质相互作用相关。为了充分理解基因组的动态折叠机制和功能相关性,获得细胞群体中的染色体单分子拓扑结构至关重要。

近年来,多种方法如ChIA-drop、split-pool recognition of interactions by tag extension (SPRITE)、Tri-C、multi-contact 4C和Pore-C等已被建立,用于研究染色质多位点协同相互作用和群体细胞的染色体单分子拓扑结构的捕获。这些方法中,Pore-C具有技术简单、可以同步捕获全基因组高阶多位点互作信息和DNA甲基化修饰的优点。

2023年3月6日, 中山大学中山眼科中心肖传乐团队与中国科学院昆明动物研究所侯春晖团队在Nature Communications在线发表了题为“High-throughput Pore-C reveals the single-allele topology and cell type-specificity of 3D genome folding”的研究论文, 该研究优化建立了一种高通量的Pore-C方法,显著增加了高阶染色质互作的检测通量,并揭示了三维基因组的单分子拓扑结构多样性和细胞特异性。希望组提供三代测序服务。

文章发表在Nature Communications

在该研究中,研究团队发现Pore-C技术测序通量相对较低,可能是因为与DNA交联的蛋白质没有被完全去除,导致了测序纳米孔芯堵塞。为了解决这个问题, 研究团队优化了酶解条件,测试了多次蛋白酶解和使用混合蛋白酶的策略(图1), 大幅提高了测序产量(约80%),近乎成倍降低了该技术的使用成本(图2)。此外,研究团队通过整合NGMLR和Minimap2比对算法开发了MapPore-C比对流程,显著改善了比对准确性和数据利用率低的问题。研究团队还通过与Hi-C数据比较验证了HiPore-C能够高度重现基于Hi-C捕获的染色质环、拓扑相关结构域和染色质区室等基因组3D结构

图1. HiPore-C方法策略图

图2. HiPore-C与Pore-C技术测序通量和成本的比较

接下来,研究团队分析了染色体间高阶互作,发现大多数互作并非发生在端粒和中心粒之间,而是发生在基因组区域,并形成两个转录活性不同的互作枢纽,其中一个枢纽基因密度、增强子密度和活跃状态染色质相关的表观遗传修饰水平都更高。研究团队还发现多个染色体的tRNA基因富集区域之间发生跨染色体的高频相互作用。HiPore-C高阶互作不仅发生在TAD和compartment内部,而且能够跨越多个区室、拓扑相关域和染色质环(图3);基于直接和间接的DNA片段间相互作用构建的染色质互作图谱与常规Hi-C图谱总体相似,但间接DNA片段互作更倾向跨越多个结构单元。该研究揭示了跨染色质结构域互作存在的广泛性,并且突出了HiPore-C技术在单分子水平解析基因组三维高阶互作的优势和重要性。

图3. 跨越染色质环的高阶互作

研究团队通过分层聚类的方法,讨论了不同类型细胞的拓扑结构中呈现的单分子拓扑结构集群, 这些结构集群是类亚TAD(subTAD-like)结构域形成的基础,往往具有明显的细胞特异性(图4)。这表明单分子拓扑结构多样性是细胞群体TAD结构域划分的基础,对理解基因组空间结构组织和细胞特异的基因表达间的关系具有重要意义。

图4. K562和GM12878细胞TAD结构域的高阶互作聚类分析

此外,研究团队使用HiPore-C数据比较了红系K562和淋巴系GM12878细胞中在β-globin locus的高阶互作(图5)。结果显示,人ε-和γ-珠蛋白基因启动子和多个增强子之间形成了多位点同时互作、细胞特异的增强子-启动子中心,这种相互作用很可能是动态的

图5. K562和GM12878细胞中β-globin locus HiPore-C高阶互作分析

最后,研究团队分析了HiPore-C同时捕获染色质高阶互作和DNA甲基化状态的能力,发现DNA甲基化信号与染色质环锚点间相互作用强度呈正相关,此外还可以根据DNA甲基化水平准确地区分染色质区室的类型(AvsB)。

综上所述,研究团队建立了HiPore-C技术,能够以前所未有的深度全面描述单分子拓扑结构的多样性,揭示了单分子拓扑结构的动态折叠比以前想象的更复杂, 进一步促进了我们对三维基因组折叠规律的理解

项目文章 | 当樱花遇上科学,邂逅春日的浪漫,武汉市园科院带您揭秘樱花的起源、进化和花色变异

樱花是世界著名的木本观赏植物之一,由于其美丽的花朵、诱人的颜色和早春开花等特点而广受人们喜爱。它在世界各地广泛种植,特别是在我国和东亚地区的日本等国家。但是目前关于樱花的起源和进化的研究还不充分,尚有一些争议,关于樱花观赏性状的遗传及分子调控机理解析也十分有限。

2023年2月14日,武汉市园林科学研究院在读博士聂超仁高级工程师与北京林业大学园林学院吕英民教授、华中农业大学园艺林学学院汪念副教授等在植物学经典权威期刊The Plant Journal发表了题为Genome assembly, resequencing and genome-wide association analyses provide novel insights into the origin, evolution and flower colour variations of flowering cherry的研究论文。该论文结合基因组组装、重测序和全基因组关联分析为樱花的起源、进化和花色变异提供了新见解。

该研究第一作者为北京林业大学/武汉市园林科学研究院聂超仁博士,通讯作者为北京林业大学园林学院吕英民教授和华中农业大学园艺林学学院汪念副教授。同时丁昭全、夏文胜、孙宏兵、章晓琴、张思思、李娜,张英杰、王青华等还参加了本项研究。希望组为本研究提供基因组测序服务。

首先,研究者对P. campanulata ‘Plena’PCP)进行测序,一共获得76.42GbONT数据,N50和平均长度分别为30.3221.55Kb,以及29.72 GbIllumina数据,使用NextDenovo软件进行基因组组装(https://github.com/Nextomics/NextDenovo),初步基因组大小和N50分别为278.78Mb18.20Mb。在用NextPolish进行基因组校正后,最终的PCP基因组大小为280.20 Mb,由41contigs组成,N50大小为18.31 Mb。利用42.87 GbHi-C数据构建Hi-C热图(图1b),可以看到8个伪染色体中的每一个都有高强度的相互作用,该基因组的完整BUSCO率为98.70%(图1c)。

NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

Prunus campanulata‘Plena’ (PCP)的基因组组装

紧接着,研究者对收集到的312 个樱花种质(160 个品种、77 个 杂交F1 75 个野生个体)进行了重测序,获得了 761267 个高质量的基因组变异。通过分析这312 份种质的种群结构和遗传关系,该研究将这306份材料分为ABC三个进化枝。并根据系统发育分析,研究人员预测了樱花的两个起源。其中进化枝中的樱花起源于中国南方,例如喜马拉雅山脉或东南沿海山系,随后广泛种植或生长于华南、华中等区域。而另一分支则起源于中国东北,随后向南广泛种植于我国北方和东部区域形成B分支,同时另一支可能流向日本形成C分支。

2 312份樱花种质资源的群体分析

最后,研究人员对 312 份樱花种质进行了花色全基因组关联研究 (GWAS),共鉴定出七个数量性状基因座 (QTL),其中一个编码糖基化转移酶的基因被预测为一个QTL的候选基因。

3 312份樱花种质花色变异的全基因组关联研究

该研究结果提供了宝贵的樱花基因组资源,并对樱花的起源、进化和花色分子变异提供了新的见解。该研究的开展,为我国对樱花园林应用提供有力的理论支撑。

Next系列软件应用 | 世界首个草莓T2T,NextDenovo完成图必备工具

目前使用超长读长测序技术已经完成了许多植物的无间隙端粒到端粒基因组的组装,例如拟南芥, 水稻 , 西瓜, 猕猴桃, 香蕉和苦瓜等。T2T基因组已用于描述包括所有着丝粒和重复区域的具有高准确性、连续性和完整性的高质量完整的基因组。T2T基因组对重复区域的精确重建,提供了对着丝粒和端粒结构的洞察,能够注释更多的蛋白质编码基因,推进比较基因组学和进化生物学,并最终提供用于遗传驯化和育种的精确基因组序列。

二倍体森林草莓Fragaria vesca(2n=14)原产于欧洲和亚洲,由于其植株较小、杂合度低以及容易遗传转化被当作草莓研究的模式物种。2011年早期发布了F.vesca cv.‘Hawaii 4’的基因组序列草图(v1.0),2018年报道了基于PacBio测序和光学图谱的染色体水平组装。然而,目前F.vesca基因组仍然没有达到完整的T2T水平,表明其基因组质量有继续提升的空间。

本研究使用ONT和PacBio HiFi测序组装了一个高质量的T2T F.vesca基因组,填补了目前可用参考基因组中的所有剩余空白,并构建了染色体核型演化模型,探究了八倍体草莓的祖先二倍体。

本研究对二倍体草莓测序产生的约32.67 Gb的ONT超长测序reads、27.31 Gb的PacBio HiFi reads和32.10 Gb的Illumina reads以及44.56Gb的Hi-C数据进行基因组组装。使用NextDenovo软件对ONT数据进行组装(https://github.com/Nextomics/NextDenovo),使用NextPolish(1.4.1版本)软件对其进行纠错。

NextDenovo/NextPolish软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

图1 F.vesca的全基因组组装

最终组装得到的无gap基因组大小为220.8Mb,Contig N50达到了34.34Mb,BUSCO值为98.8%,注释到了36173个蛋白质编码基因,其中1153个为新注释的基因,鉴定到7条染色体上所有14个端粒和7个着丝粒。系统发育分析表明,F.vescaF.viridis是栽培的八倍体草莓F.×ananassa的祖先,而F. iinumaeF. nipponica与其亲缘关系较远。

图2 Fragaria vesca对栽培八倍体草莓的贡献

综上,这一高质量无gap的T2T F.vesca基因组,结合对栽培草莓起源的系统发育推断,提供了对Fragaria基因组进化的深入了解,并促进了草莓遗传学和分子育种的发展。

项目文章丨长读长测序+Next系列软件助力红花槭基因组解析与色素积累机制研究

红花槭(Acer rubrum)又名北美红枫,为槭属落叶乔木,从德州到魁北克,在大西洋西岸连绵2500 km 都有分布,是北美最受欢迎的绿化树种之一。目前,中国有20 余个省区引种栽培,有望成为新一代行道树。秋末冬初,红花槭叶片由绿色逐渐变成红色、黄色、橙黄色等颜色,是秋季叶色最为丰富的树种之一,叶片颜色、变色时序存在明显差异。之前的研究在一定程度上为红花槭叶色的遗传改良奠定了理论基础,但缺乏全序列基因组限制了该物种的基础生物学研究和育种。

近期,安徽省农业科学院的任杰研究员和安徽农业大学的傅松玲教授作为共同通讯作者,于2022年9月1日在Plant Physiology and Biochemistry上发表题为《The chromosome-scale genome provides insights into pigmentation in Acer rubrum》的文章。本研究将为该物种的基因组育种研究提供便利,同时也为槭属种质的利用提供了宝贵的基因资源。武汉希望组为本研究提供了测序、组装和注释等工作。

红花槭基因组组装及注释

在这项研究中,利用Oxford Nanopore平台和Hi-C技术获得了染色体水平的红花槭基因组。使用 Racon 和 Nextpolish 软件对其进行组装和校正后,确定红花槭基因组大小为 1.7 Gb,contig N50 为 547.18 Kb。利用 Hi-C 技术共生成了 39 条假染色体,基因组占99.61%,该技术用于捕获染色体的重叠群相互作用模式。这表明大多数红花槭基因组重叠群分布在 39 条假染色体上。在去除受污染的序列(线粒体、叶绿体等)后,红花槭的基因组大小为 1.69 Gb,N50 为 549.44 Kb。红花槭基因组预测有64644个基因,其中97.34%进行了功能注释。基因组注释显示67.14%为转座元件(TE)重复序列,其中长末端重复序列(LTR)含量最高(55.68%)。

红花槭的进化分析

为了研究基因家族与红花槭特定性状之间的关系,作者对其他 12 种物种进行聚类分析(漾濞槭、拟南芥、番木瓜、克里曼丁橘、橙子、温州蜜柑、龙眼、阿月浑子、毛果杨、伯尔硬胡桃、可可树和葡萄),发现红花槭和漾濞槭之间有 777 个同源基因(图 1A)。红花槭中有 404 个单拷贝直系同源物、6072 个独特基因和 9245 个未聚集基因(图 1B)。考虑到独特且未聚集的基因是物种特异性的,其中有15317个特定基因用于后续的GO和KEGG富集分析(图1C和D)。红花槭基因组的特征和注释及与其他植物基因组的比较,为未来研究该物种的进化提供了新的数据。在本研究中,红花槭和漾濞槭之间的系统发育分析更新了槭属物种的进化,距今约634万年前,红花槭与漾濞槭发生了分化。

图 1. 红花槭基因组注释。(A)红花槭基因组中直系同源基因的维恩图。(B)每个物种中单拷贝基因的花瓣图和红花槭中的独特基因。(C)红花槭基因组中独特和未聚集基因的 GO 富集图。(D)红花槭基因组中独特和未聚集基因的 KEGG 富集散点图。

花青素合成通路分析

本研究克隆了13个与红花槭叶片色素合成相关的基因,其中4个ArF3’H基因的表达与红叶中的关键色素–花青素的合成一致。红花槭中花青素的合成始于香豆酰辅酶A,通过一系列酶促反应合成三种类型的花青素(花青素、天竺葵素和飞燕草素),然后通过糖基化、甲基化和酰化修饰,形成稳定的花青素衍生物(图 2)。黄酮骨架上R1和R2位的羟基化程度是决定花青素最终颜色的关键因素。在红花槭中,F3’H催化二氢山柰酚羟基化生成二氢槲皮素(花青素的前体),使F3’H成为花青素合成的关键酶。相关分析表明,红花槭叶片的色素沉着是在非结构性碳水化合物和激素的协同调控下进行的。

图2 红花槭中花青素合成途径

红花槭全基因组测序是优化利用植物遗传资源和改良农艺性状的重要保证,不同植物基因组数据的比较进一步阐明了进化系统的功能,同时,对其进行了基因组学、转录组和代谢组学分析,以获得对红花槭叶片色素形成调控网络的新视角,为红花槭色素沉着提供了新的见解。该基因组将为红花槭资源的有价值的利用提供依据,同时为该物种的基因组育种研究提供便利。