项目文章 | 三代测序助力马铃薯品种“合作88”的高质量基因组解析

马铃薯是世界上最重要的块茎类作物。栽培马铃薯是同源四倍体(2n=4x=48),基因组包含四套高度杂合的同源染色体。马铃薯主要依靠薯块进行无性繁殖,有害等位基因隐藏在四套染色体中很难被清除,而优良基因的聚合要依靠四套染色体复杂的遗传重组,这些特征导致马铃薯品种的改良困难极大。解析栽培马铃薯基因组对挖掘和利用有益基因,并开展快速分子育种十分重要。

2022年6月22日,Molecular Plant 在线发表了中国农业科学院、鹏城实验室和云南师范大学共同完成的题为Genome architecture and tetrasomic inheritance of autotetraploid potato的研究论文。该研究发布了当前最高质量的栽培马铃薯基因组,同时通过比较基因组学和遗传学分析,揭示了同源染色体间广泛存在且不均衡的序列、表达和遗传行为的差异,并展示了亲本之间有害突变基因型的互相屏蔽和功能基因的互补。

解析同源多倍体基因组最主要的挑战在于区分同源染色体间十分相似的序列。在本研究中,作者首先使用自交群体遗传作图的方法将四倍体基因组的高准确率测序序列(HiFi read)分成了四组,其次在全基因组组装图中引入了“polyploid graph binning”的方法,利用HiFi read的分组信息辅助区分四套同源染色体。该策略十分成功,作者最终获得 3.15 Gb组装序列,其中3.03 Gb 被锚定成四组共48条染色体。Contig N50达到18.78 Mb,BUSCO完整基因达到98.4%,显示这是当前质量最高的同源四倍体马铃薯基因组。希望组为本研究提供了Nanopore三代测序服务。

通过对四套同源染色体的比较基因组学分析,作者检测出马铃薯基因组内部12M的SNP和InDel,5万多个SV 和1万多个PAV基因,显示了栽培马铃薯基因组的高度杂合。四个同源染色体之间两两差异并不均衡,在基因组上造成了大量“局部坍缩”的纯合区域。同源染色体的近着丝粒区域序列高度特异,存在大量未报道的单体型特异的重复序列,显示了马铃薯染色体着丝粒序列的快速进化。四倍体基因组内大约四分之一的区域(~780Mb)存在野生二倍体马铃薯的渐渗片段,这些渐渗片段可能贡献了特异的着丝粒序列。

图1 同源四倍体马铃薯基因组的解析

双减数分裂(Double Reduction,DR)是同源多倍体物种特有的遗传现象。在本研究中,作者构建了包含1034个后代的自交群体,在全基因组范围检测到1% – 4%比例的DR事件,同源染色体之间存在显著的DR频率差异。四倍体基因组单体型序列的构建为进一步研究多倍体特殊遗传现象提供了有力的数据基础。

本研究中测序的栽培马铃薯品种“合作88 ”(Cooperation-88, C88)是云南师范大学等单位与国际马铃薯中心合作选育的优良品种,是我国云南地区主栽品种之一。C88的母本具有优良适应性和一般抗性, 父本来自Solanum andigena的混合花粉,晚疫病抗性强而适应性较差。通过对C88中父本染色体和母本染色体的比较发现,父本染色体携带更多的有害突变。其中2366个携带纯合有害突变父本基因,被母本染色体屏蔽成杂合状态,降低了有害突变的不良影响。而C88父本染色体贡献了两个抗晚疫病基因R1R2,是C88优良抗性的来源。对同源染色体单体型上有害突变和功能基因的分析,能够为马铃薯设计育种选择合适的骨架单体型提供全面的信息。

图2 父本和母本染色体上的有害突变和功能基因

中国农业科学院深圳农业基因组所鲍志贵,云南师范大学马铃薯学院李灿辉教授,中国农业科学院蔬菜花卉研究所李广存研究员为本文共同第一作者。中国农业科学院深圳农业基因组所黄三文研究员与鹏城实验室周倩博士为本文共同通讯作者。该工作得到广东省基础与应用基础研究重大专项和农业科技创新计划,以及国家自然科学基金的资助。

项目文章丨Nature Genetics!长读长测序+Bionano助力豌豆高质量泛基因组育种研究

2022年9月22日,中国农业科学院作物科学研究所联合多家合作单位,在《自然遗传学(Nature Genetics)》杂志上发表了题为“Improved pea reference genome and pan-genome highlight genomic features and evolutionary characteristics”的研究论文。论文进行了豌豆参考基因组的组装和注释,进一步确定了全基因组变异,并基于全基因组重测序数据展示了 118 个栽培和野生豌豆基因型的种群遗传结构。通过基因组选择和数量性状位点(QTL)分析,发现了一批与驯化和育种改良性状相关的候选基因,其中包括孟德尔基因的几个候选基因。高质量的参考基因组和泛基因组为豌豆基因组进化和驯化提供了洞察力,并为豌豆遗传学和育种研究提供了宝贵的基因组资源。

中国农业科学院作物科学研究所杨涛副研究员和刘荣助理研究员、中国科学院微生物研究所骆迎峰副研究员和胡松年研究员以及山东省农业科学院农作物种质资源研究所王栋助理研究员为论文的共同第一作者。中国农业科学院作物科学研究所宗绪晓研究员、中国科学院微生物所高胜寒特别研究助理、山东省农业科学院农作物种质资源研究所丁汉凤研究员、国际半干旱热带作物研究所和澳大利亚默多克大学Rajeev K Varshney教授为论文的共同通讯作者。希望组为本研究提供了部分Bionano光学图谱服务。

豌豆 (Pisum sativum L., 2n=2x=14) 是一年生豆科植物,基因组大小约为 4.45 Gb。豌豆的收获面积在豆类中排名第四,仅次于大豆、普通菜豆和鹰嘴豆(http://www.fao.org/faostat/)。作为蛋白质、淀粉、纤维和矿物质的来源,由于其生物固氮能力具有显著的生态可持续性优势,豌豆一直受到关注,特别是自从孟德尔通过豌豆遗传试验揭示了遗传规律之后。豌豆被认为是最早驯化的豆科作物之一,然而,尽管它在推进植物遗传学方面发挥了关键作用,但其驯化过程仍然是一个谜,豌豆中栽培和野生豌豆的遗传多样性尚未完全揭示。

研究思路

部分研究结果

1.豌豆基因组图谱构建

本研究结合使用 PacBio SMRT 测序、10x Genomics 、Bionano 光学作图、Hi-C 和 Illumina NGS 技术,对ZW6 的高质量、高连续性染色体参考基因组进行构建。最初基于 PacBio 读取的总大小为3,796.7Mb,contig N50 大小为 8.98Mb,最终组装被锚定到七个染色体水平的假分子中,具有两个细胞器基因组和 1,572 个未放置的重叠群(图 1 )。锚定重叠群的总大小为 3,719.6Mb,占豌豆ZW6 的 97.96%,而锚定重叠群仅占之前基于 NGS组装的 82.51%。豌豆基因组图谱的获得,为豌豆巨大基因组背后遗传学的了解奠定了基础。

图1 豌豆基因组图谱

2.种群遗传结构

为了阐明豌豆中栽培和野生豌豆的系统发育关系和种群遗传结构,将 ADMIXTURE 应用于 SNP 和 SV 数据集,结果高度一致(图 2b、c )。P. fulvumP. sativum 和 P. abyssinicum 三种不同种的结构得到了一致支持。在 P. sativum 中鉴定了三个遗传组,其中 P. sativum IV (PSIV)代表早期分化组(图2b,c)。P. sativum II (PSII) 和P. sativum III (PSIII) 主要对应于代表不同地理区域(即亚洲和欧洲)栽培豌豆的两个遗传组,这可能与豌豆驯化后的传播途径有关(图2b,c)。用 SNP 和 SV 数据集构建的系统发育树(图 2a,d)显示出主要分支的相似系统发育关系,并且与 ADMIXTURE 结果的主要遗传组有良好的对应关系。此外,P. fulvumP. abyssinicum和栽培的 P. sativum的 Pisum 形成了三个独立的单进化枝(图 2a,d),这也得到了 SNP 和 SV 数据集的主成分分析的支持(图 2e, f )。

图2 基于SNP (a, b, e)和SV (c, d, f)的118份栽培和野生豌豆的群体遗传结构

3.孟德尔基因位点的 QTL 分析和重新发现

为了探索豌豆重要农艺性状的遗传基础,使用基因分型测序对 300 个 F2 种群(WJ×ZW6)中的 12 个农艺性状进行 QTL 分析。将总共 124,900 个高质量 SNP 标记聚集成 2,950 个 bin 标记,构建了一个高密度(0.31 cM)遗传连锁图谱,组装成跨越 924.1 cM 的七个连锁群。发现 25 个 QTL 与 12 种农艺性状相关,比值对数 (LOD) 值范围为 4.2 至 78.1,解释的最大表型变异 (PVE) 高达 68.7%(图 3a)。在 25 个 QTL 中,与 Mendel 分析的三个性状相关的 SS3、SL5 和 PF5 显示出更高的 LOD(78.1、53.1 和 31.9)和 PVE(68.7%、46.7% 和 37.6%),在基因组中具有尖锐的 QTL 峰(4.87Mb, 1.85Mb 和 4.43Mb)(图 3b-d)。SS3、SL5 和 PF5 中的同源比对和功能注释的结果发现了两个先前已知构成孟德尔性状对应的基因位点,R和 Le,以及一个可能与荚型相关的候选基因。然而,这些基因都没有落在推定的选定区域中,这意味着它们可能与豌豆驯化没有密切关系(图3e-g)。

图3 基于SNP (a, b, e)和SV (c, d, f)的118份栽培和野生豌豆的群体遗传结构

4.基于 118 个栽培和野生豌豆的泛基因组

随着新基因组的增加,核心基因的数量减少,而泛基因的数量增加,逐渐趋于饱和(图4a)。在质量控制之后,基于跨基因组直系同源物的系统发育,116个基因组的基因被聚集成 112,776 个泛基因,代表系统发育分级直系群(HOG)(图 4)。Pisum中核心基因、软核基因、壳基因和云基因的数量分别为15,470、6,170、41,028和50,108,分别占预聚类基因总数的35.19%、15.54%、44.28%和4.99%。任何组中核心基因的百分比均高于 Pisum 整体。值得注意的是,群体的核心百分比可能与其计算的遗传多样性相对应,这表明遗传多样性也可能对核心基因的百分比有贡献。同时,核心基因在其他 27 个植物基因组中也更保守(图 4b ),表明它们在基本功能中的作用。此外,PAV 的邻接树也显示出 116 个 Pisum 种质的明显分离,这与基于 SNP 和 SV 的结果高度一致,表明有助于 Pisum 驯化的重要遗传变异也存在 PAV 中。

图4 116个代表性栽培和野生豌豆的泛基因组分析结果

总之,这里介绍的高质量参考基因组和泛基因组提供了对豌豆基因组进化和驯化的见解,以及豌豆遗传学和育种研究的宝贵基因组资源。这项研究将填补以前的遗传模式生物和现代基因组学之间的空白,以促进豌豆的研究和作物改良。

项目文章丨国内首篇OGM血液肿瘤英文文章见刊!OGM检测46例儿童急淋白血病并发现未被报道的可能与临床相关的融合基因

2022年12月21日,国家儿童医学中心首都医科大学附属北京儿童医院王天有、李志刚、张瑞东教授团队在MDPI Cancers上发表了以“Optical Genome Mapping for Comprehensive Assessment of  Chromosomal Aberrations and Discovery of New Fusion Genes in Pediatric B-Acute Lymphoblastic Leukemia”为题的研究文章,这是国内科学家发表的首篇使用OGM光学图谱技术检测血液肿瘤遗传学改变的英文文章。希望组提供Bionano测序和组装服务。

OGM检测 vs 传统检测方法(Karyotype+RT-PCR/FISH)对比

该研究纳入了2019年6月到2020年6月北京儿童医院血液肿瘤中心的46例儿童B细胞急性淋巴细胞白血病(B-ALL)的初诊病例, 依据CCLG-ALL2008方案划分为低危组(12例),中危组(24例)和高危组(10例)。对骨髓穿刺样本行核型,FISH, RT-PCR和OGM检测和数据结果分析解读。

46例儿童B-ALL样本均具有FISH/反转录PCR检测结果,45例具有核型G-显带结果。46例样本平均收集的OGM有效数据深度为420.5X.

传统方法检出非整倍体18例,核型正常17例。OGM检出非整倍体22例, 无明显染色体异常13例,OGM额外检出4例患者(case 41,97,101,109)超二倍体。汇总表格如下:注:在3个case中OGM未检出位于X染色体PAR区域的P2RY8::CRLF2融合,可能源于其VAF小于5%的检测下限,预计可在后续算法软件提升中解决该问题。

OGM单独检出而传统方法未检出异常

OGM单独检出而传统检测方法未检出的与B-ALL相关的染色体异常病例为11/46例,包含t(9;9)(p24.1;p21.2) JAK2::TEK,t(12;12)(p13.31;p13.2) ZNF384::ETV6等基因融合的检出。

下图B中展示了OGM检出case103的t(12;16;21)三重易位,而核型显示为无异常,RT-PCR仅检出了ETV6::RUNX1融合,OGM额外检出t(12;16)ETV6::DPEP1、t(16;21)SPG7::RUNX融合。

Case 66中,OGM和核型均检出了t(11;22)(q23;q11)和t(13;19)(q14;p13),RT PCR/FISH未报告融合,OGM进一步明确了上述易位造成的已见报道的FLI1::EWSR1和未见报道的 TMEM272::KDM4B基因融合。详见下图D,E,F.

OGM识别出marker染色体,纠正了核型断裂点

在6例核型失败或G-显带无法明确染色体变异断裂点或存在marker染色体的病例中,OGM明确了该变异和marker染色体来源。如下图case 47,OGM明确了chr1上的染色体异常。

iAMP21是儿童BCP-ALL中一个独特的细胞遗传学变异,发生率约2%。标准治疗条件下预后不良。目前金标准检测方法为特异性FISH探针检测单个细胞中RUNX1信号为正常的5倍及5倍以上。OGM在case 48中检出iAMP21,与FISH检测结果一致,且检出其chr21具有染色体碎裂现象。详见下图。

OGM检出未见报道的可能与白血病相关的融合基因
OGM检出了如下5个可能与白血病相关的基因融合事件,分别是 PSPC1::ZMYM2 (deletion), SH2B3::ATXN2(deletion), LMNB1::PPP2R2B (deletion), CWH43::TPTE and TMEM272::KDM4B (inter-chromosomal translocation),且被WGS数据在DNA水平得到验证。其中2个基因融合可转录成mRNA。

OGM检出case 46中chr6存在20Mb缺失,造成LMNB1::PPP2R2B 融合,保留了LMNB1基因的启动子和exons1-2, 而PPP2R2B基因保留了启动子和exons1-6,详见下图。

PPP2R2B基因是一个强效抑癌基因,在抗肿瘤免疫反应中发挥重要作用。LMNB1基因下调后,造成缺陷性DNA损伤修复而导致基因组不稳定性。该缺失造成的LMNB1::PPP2R2B融合可能导致2个基因的蛋白表达下调,可能与白血病发生有关。

另外,OGM在case 66中检出由t(13;19)造成的TMEM272::KDM4B 融合,断裂点分别位于TMEM272基因的intron2和KDM4B基因的intron1上,融合方式见下图,导致KDM4B基因的mRNA水平比其他初诊患者高1.69倍。

在多项研究报道中,KDM4B基因在乳腺癌、肠癌、卵巢癌、肺癌、胃癌和前列腺癌中过表达,导致H3K9me3去甲基化,影响信号通路后续表达并导致基因组不稳定性而引发肿瘤。KDM4B基因在ALL和其他血液肿瘤中的功能仍待深入研究验证。
讨论和总结
在46例儿童B-ALL患者的检测中,OGM可检出大多数临床相关的染色体异常,在检测复杂染色体异常和纠正识别复杂核型方面具有很强的能力。另外,OGM检出了多个可能与临床相关的未见报道的融合基因。该研究显示OGM是十分高效的检测白血病患者染色体异常的工具,所发现的未见报道的异常可能对于危险度分层和白血病发病机理研究具有重要意义。

文献解读丨Nature!最全人类细胞DNA甲基化图谱

DNA甲基化是控制基因表达和染色质组织的一个基本的表观遗传标记,从而为细胞身份和发育过程提供了一个窗口。目前的数据集通常只包括一小部分甲基化位点,并且这些数据来源基于细胞系或基于含有混合细胞的组织。

研究思路

研究结果

人类细胞类型甲基化图谱

所分析的细胞类型(图1)代表了大多数主要的人类细胞类型,允许对生理系统(例如胃肠道、造血细胞和胰腺)进行综合观察,并比较不同环境中的类似细胞类型。如图1所示,205个甲基体在复制之间表现出巨大的相似性,细胞类型之间以类似于块的方式发生了显著变化。作者试图识别特定细胞类型中差异甲基化的基因组区域,以阐明细胞类型特定的生物学过程,定义细胞身份,并促进甲基化生物标志物的开发,以识别循环cfDNA片段的细胞来源。

图1 成人人体甲基化图谱

甲基化记录发展历史

通过分析系统地将相同细胞类型的生物样本分组(图2),类似于纯化人血细胞的基于阵列的聚类。这支持了细胞分离的可重复性,并表明每种正常细胞类型的三到四次重复就足以推断其甲基化模式,用于生物标志物鉴定等实际应用。

图2 无监督凝聚聚类反映了健康细胞类型的人类发育谱系。单元格类型由边缘颜色表示

细胞类型特异性甲基化标记物

每种细胞类型的前25个差异非甲基化区域包括1246个人类细胞类型特异性甲基化图谱标记(图3)。片段水平分析进一步表明,与所有其他细胞类型中几乎没有的DNA片段相比,这些区域的绝大多数DNA片段在目标细胞类型中未甲基化。该图谱具有多种应用,包括循环无细胞DNA片段的分析。重要的是,只有约1%的细胞类型特异性标记物被亚硫酸氢盐减少表达测序(RRBS)覆盖,4-8%被甲基测序杂交捕获板覆盖,14-24%在单个CpG 450K/EPIC阵列中表达,强调了全基因组测序对生物标志物彻底鉴定的益处。

图3 39个细胞类型组205个样本的人类甲基化图谱

人类细胞类型特异性调控图

前250名单核细胞和巨噬细胞的非甲基化标记物是高度可获得的,其特征在于单核细胞中的H3K27ac和H3K4me1,而其他细胞类型的标记物在单核细胞内没有富集(图4a),其他细胞类型标记物的结果相似。同时还显示了细胞类型特异性标记33处chromHMM增强子注释的强烈协同富集(图4a)。这些发现与先前的研究一致,这些研究将组织特异性去甲基化与基因增强剂相关联。

为了进一步评估细胞类型特异性非甲基化区域的生物学重要性,还研究了它们与转录因子(TF)的关系,转录因子可以影响DNA甲基化或以细胞类型特异的方式结合DNA,取决于甲基化和染色单体。对于大多数细胞类型,顶部图案包括主调节器和关键TF(图4b)。

图4 细胞类型特异性标记作为假定的增强子

细胞类型特异性高甲基化位点

对那些在一种细胞类型中甲基化但在人体其他地方未甲基化的基因组区域进行研究。这些蛋白富集于CpG岛(38%的甲基化区域,而1.7–2.7%的细胞类型特异性非甲基化区域),并且在其他细胞类型中由H3K27me3和Polycomb标记(图5a–c)。有趣的是,只有约3%的细胞类型特异性差异甲基化区域是高甲基化的。在汇集所有细胞类型特异性高甲基化区域后,发现了染色质调节因子CTCF的靶序列高度富集(图5d)。图5e显示了甲基化模式并在体内公布了CTCF在一个位点的占用情况,该位点在结肠和肠道中被特异性甲基化。与DNA甲基化阻止CTCF结合一致,ChIP数据显示结肠中该位点CTCF结合的选择性缺失。此外,在特定细胞类型中甲基化的位点富集了神经基因转录抑制因子RE1沉默TF/神经元限制性沉默因子(REST/NRSF)的靶点,这在胰岛细胞的甲基体中最明显(图5f)。

图5 细胞类型特异性的高甲基化区域富集CpG岛、Polycomb靶标和CTCF和REST/NSRF

片段级甲基化反褶积

如图6a所示,1246种标记允许以约0.1%的分辨率准确检测来自给定来源的DNA,与基于阵列的方法相比,提高了近一个数量级。然后,使用来自WGBS数据估计了白细胞和cfDNA的细胞组成;99.5%的白细胞衍生DNA来源于粒细胞、单核细胞、巨噬细胞和NK、T和B 细胞,与典型的血液计数一致(图6b)。健康受试者的cfDNA主要来源于白细胞:粒细胞(29.7%)、单核细胞/巨噬细胞(20%)和淋巴细胞(3%)。有助于cfDNA的实体组织包括血管内皮细胞(6%)和肝细胞(3.1%)(图6c),与先前的结果一致。目前的图谱还显示巨核细胞(31%)和红细胞祖细胞(5%)对cfDNA的显著贡献,这在以前使用范围更有限的参考甲基体的研究中没有观察到。最引人注目的是,Roadmap肺样本主要由血液(40%)、内皮(34%)和平滑肌(5%)组成,只有22%的DNA来源于肺上皮细胞(图6f–i)。

图6 使用细胞类型特异性生物标记物进行片段级反褶积

总之,本研究提供了一份原始人类细胞类型的全面甲基化图谱,以及一套广泛的细胞类型特异性标记和计算工具,用于混合细胞类型样本的片段水平分析。这些数据揭示了DNA甲基化在细胞生物学和基因调控中的作用,并有助于识别每种细胞类型中的活性增强剂。也许该图谱最有前景的用途是混合细胞型样本的片段水平反褶积的潜力,允许在患有癌症和其他疾病的个体血浆中敏感地识别cfDNA的起源组织。

Next系列软件应用 | NextDenovo软件脱颖而出,助力家蚕T2T基因组组装

鳞翅目物种大多是害虫,每年造成严重的经济损失。高质量的基因组测序和组装揭示了害虫发生的遗传基础,并为害虫控制措施提供了指导。长读长测序技术和组装算法的进步为组装高质量基因组打下基础,这就迫切需要选择合适的测序平台和组装策略来获得高质量的基因组信息。本研究参考了如何获得和评估高质量的基因组组装,并为鳞翅目害虫和相关物种的生物控制、比较基因组学和进化研究提供了资源。

研究思路

研究结果

1.ONT基因组组装

作者对ONT序列使用三种不同的长读长组装工具NextDenovo、wtdbg2和NECAT进行组装。结果表明,NextDenovo组装的基因组最小(约449–468 Mb),contig数约为89–114。wtdbg2组装的基因组最大(约452–794 Mb),contig数约为3273–13714,其连续性差,完整性低,组装质量较差。NECAT的组装质量介于NextDenovo和wtdbg2之间。NECAT组装的基因组大小约为561–581 Mb,contig数量约为688–851。

为了评估基因组组装的准确性,作者使用Inspector计算了结构错误和小规模错误的数量。其中NextDenovo的小规模错误数量最少,结构错误数量略低于wtdbg2(图2)。Wtdbg2具有最高的小规模错误数和最低的结构错误数。NECAT的结构误差最多,小尺度误差次之。

总之,对于ONT数据的组装,NextDenovo软件的组装效果最好

NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

图1 不同数据深度的CLR、ONT、HIFI组装的质量值(QV)评分和计算时间

图2 CLR、ONT、HIFI组装的结构错误

2.CLR基因组组装
CLR reads的组装使用四种不同的长读长组装工具(NextDenovo、Canu、wtdbg2和MECAT2)进行。当满足一定的测序深度(>=40×)时,每个基因组组装的contig数量差异不显著,NextDenovo的结果仍然最佳。所有组装(contig N50)的连续性随着测序深度的增加而增加,NextDenovo组装增加最明显(图3)。NextDenovo组装显示出最高的连续性(contig N50=9.41 Mb)、最小的大小(477 Mb)和最少的contigs(n=205)。总之,NextDenovo的整体表现最好,其次是Canu。

图3 测序深度对基因组组装影响

3.HiFi基因组组装

与CLR和ONT相比,HiFi组装的基因组连续性和完整性明显优于CLR和ONT。HiFi基因组组装的大小、连续性和完整性没有显著差异。最大的差异体现在contig数上,hifiasm组装的contig数目比HiCanu组装的少的多(图3)。与ONT和CLR相比,HiFi组装包含最少的结构误差和小规模误差(图2)。与其他两种测序方法相比,HiFi组装显示出最佳的组装质量、最低的contig、最高的连续性、准确性和完成度。它还需要最少的时间和计算机内存,可以被认为是未来鳞翅目害虫基因组的最佳测序方法。

4.基于Hi-C的染色体水平基因组的构建及质量评价

作者使用3D-DNA在染色体水平上构建基因组,为每种测序方法选择了最佳的基因组组装。使用默认参数,3D-DNA实现了大多数染色体的聚类。然而,仍然存在一些染色体聚类错误和contig易位和反转,这些都是使用Hi-C图识别的。然后,作者设计了基于EagleC的染色体水平基因组组装质量评估标准。这可以快速准确地识别组织错误,并能够以表格的形式报告基因组组装中的错配百分比,以便于纠正这些组装错误(图4c)。根据EagleC的建议,完成了基因组组装的调整,并使用Racon进行了纠错,使用TGS GapCloser进行了补洞。最后,使用五个碱基端粒重复序列(’TTAG’)作为序列查询,鉴定到了50个端粒,并构建了28个假染色体用于家蚕(P50T HiFi)基因组(图4a,c)。根据EagleC的报告,这些差异区域是由几个Mb级组装错误造成的,例如Chr24(图4e)。P50T SilkBase组装中的组装错误也通过5个蚕基因组组装的Chr19平行图得到证实(图4d)。尽管CLR和ONT的基因组组装质量不如HiFi,但在使用EagleC和3D-DNA(基于Hi-C)处理后,两者都完成了非常高的连续和完整的染色体水平基因组组装(图4b)。

图4 不同家蚕品系染色体水平基因组组装总结

对于鳞翅目害虫的基因组测序,作者建议使用HiFi和Hi-C测序,然后使用hifiasm和3D-DNA进行组装和染色体组装,这实现了最佳的单倍体基因组组装。对于已经通过ONT或CLR测序的物种,作者建议NextDenovo、3D-DNA和EagleC进行染色体级基因组优化

文献解读|Nature Communications!基于粪便微生物的机器学习用于多类疾病诊断

近期研究表明肠道微生物失衡会导致人体各类疾病。目前微生物标记的开发主要是使用二元分类,然而现有证据显示大多数健康状况都表现出重叠的肠道微生物组特征,因此单一疾病诊断模型很可能被其他无关疾病混淆甚至出现错误诊断。尽管多元分类诊断模型已经在尝试开发中,但分析过程中对于公共数据集的依赖和涉及到的异质性、技术偏差和批次效应都大大限制了该模型的准确度。

研究思路

研究结果

作者对2320名香港华人(平均年龄54.9岁,48.7%为女性)的粪便样本进行了宏基因组测序,这些样本包含9种典型疾病:结直肠癌(CRCn=174)、结直肠癌腺瘤(CAn=168)、克罗恩病(CDn=200)、溃疡性结肠炎(UCn=147)、,肠易激综合征(腹泻亚型,IBS-Dn=145)、肥胖(n=148)、心血管疾病(CVDn:143)、急性新冠肺炎综合征(PACSn=302)和健康对照组(n=893),并鉴定了1208种细菌。

01.不同表型的共享微生物组特征

通过多元关联分析,这9种疾病与215种细菌分类群在物种水平上共有1061个显著的关联(FDR<0.05)。在这215个物种中,超过94%的物种与两种或两种以上的疾病显著相关,这与以前的报道一致,即不同的疾病之间共享许多信号。例如,肺炎克雷伯氏菌(Klebsiella pneumoniae),一种特征明显的病原体,与CDCRCIBS-D、肥胖症、PACSUC呈正相关,而Roseburia intestinalis,一种具有生产丁酸盐特性的益生菌,与这六种疾病表型呈负相关。虽然各种疾病都有共同的微生物特征,但这些发现表明存在着疾病特有的微生物组成。然而,二元分类器是否能捕捉到这些疾病的特异性特征尚不清楚。在不相关的疾病中测试了训练的二元模型的特异性,结果显示误诊率很高。这些结果表明,二元分类器未能捕捉到仅基于单一疾病与对照样本的真正疾病特异性特征。

02.基于粪便微生物组的多类诊断模型的建立

基于2320名香港华人的队列,训练了五个机器学习多类分类器(RFK近邻(KNN)、多层感知器(MLP)、支持向量机(SVM)、和图卷积神经网络(GCN))来分类不同的疾病,使用来自训练集的物种水平数据(70%的样本与队列具有相同的类别比例),并从保留的测试集(30%的样本,图1a)中展示其最终表现。所有这些模型的平均AUROC0.670.99(四分位数范围,IQR 0.810.92),表明基于粪便微生物组的多类疾病分类是可行的。其中,RF多类模型对于测试集中的不同疾病表型实现了0.900.99的平均AUROCIQR 0.910.94,图1b)。测试集中RF模型的性能显著优于所有其他模型,并且与训练集的性能相似,表明该分类器的高度完整性。因此,使用RF多类模型进行进一步分析。在基于最高约登指数的阈值下,RF多类别分类器的灵敏度范围为0.810.95IQR 0.870.93),对不同疾病的特异性为0.760.98IQR 0.830.95),准确度为0.770.98IQR 0.820.92,图1c),突出了良好的诊断性能。

基于粪便微生物组的机器学习用于多类疾病诊断

03.在独立数据集上验证多类模型

作者整合了来自亚洲、欧洲和北美的12个公共数据集的1597个鸟枪粪便宏基因组数据。RF多类别分类器在分类不同疾病时显示平均AUROC0.690.91IQR 0.790.87),并且通常优于所有其他模型。为了进一步验证模型的准确性,作者选择了60名新冠肺炎感染完全康复的患者。训练模型显示,将这些受试者分类为健康者的准确率为83.3%。这些数据证实,完全康复的新冠肺炎存活者(无PACS)与健康人具有相似的肠道微生物群特征。此外,还测试了训练数据集中未包括的疾病的训练RF模型,包括肝硬化和便秘为主的IBS数据集。作者发现,使用RF多类别模型,由于大多数受试者未达到相应阈值,因此无法进行预测的可能性很高,并且可能被归类为待定。而且,每种表型的误分类率从0%0/60CACVDIBS-D,肥胖)到5%3/60CDCRCPACS),这表明该模型对队列中的9种表型具有高度的特异性和准确性,对无关疾病的误分类风险很低。

04.细菌特征和表型之间的关联

最后,研究人员将对模型贡献最大的前50个细菌物种与不同的疾病表型相关联,发现在测试集中,这50个细菌物种对不同疾病的平均AUROC0.88-0.99,而在公共数据集中的平均AUROC0.67-0.90。此外,研究人员在这50个物种与不同的疾病表型之间共发现了363个明显的关联(香港队列,FDR<0.05,图2)。与健康对照组相比,几乎所有疾病状态都与厚壁菌门或放线菌门的微生物群丰度显著降低和拟杆菌门的显著增加有关。这种共享的微生物特征可以作为区分健康和疾病的基础。进一步,研究发现尽管CRC患者和CA患者的肠道细菌组成相对相似,但与健康对照组相比,CRC患者的Parvimonas micra丰度显著高于CA患者,表明Parvimonas micra可作为区分CRC与结肠直肠腺瘤的标志物(图2)。

对于其他疾病,微生物组差异主要由放线菌驱动。肥胖受试者显示出Actinomyces naeslundiiActinomyces odontolyticusActinomyces oris的增加,而IBS-D受试者显示出Collinsella aerofaciensCollinsella stercoris的增加。研究人员进一步将公共数据集中的细菌和表型相关联,发现许多疾病的特异性生物标志物在不同的数据集中是稳定的。这些结果表明,多类分类模型可以捕获不同疾病的特异性微生物特征,具有强大诊断性能。

图2 与健康状况或不同疾病表型相关的微生物物种

这种基于微生物组的多疾病分类模型在疾病诊断和治疗反应监测中具有潜在的临床应用,值得进一步探索。

Next系列软件应用 | 桃金娘科首个T2T基因组研究成果公布

桃金娘(Rhodomyrtus tomentosa)是一种重要的药用植物,成熟果实呈紫色。先前的研究初步确定了桃金娘中花青素的合成类型和药理作用。然而,很少有人研究桃金娘花色苷和其他生物活性物质。

发表期刊:Horticulture Research  
发表时间:2023.01

研究思路

研究结果

1.桃金娘T2T无gap参考基因组

LFSTJN-1被选择用于T2T无gap参考基因组组装(图1A)。结果表明,桃金娘的基因组约为450.77Mb,杂合度为0.29%。使用Hifiasm对PacBio-HiFi数据进行组装,对于ONT数据使用NextDenovo进行组装,并用NextPolish软件对其进行纠错。在填补所有空白后,产生了一个470.35Mb的桃金娘无gap基因组,包含11条染色体,contig N50为43.80Mb。使用七个碱基端粒重复序列(’CCCTAAA’)作为序列查询,鉴定到所有22个端粒,并构建了桃金娘基因组的11个T2T伪染色体(图1C;补充表2)。11个伪染色体中都鉴定出着丝粒,长度在0.35Mb至3.49Mb之间(图1C)。

图1 桃金娘的基因组组装和基因组特征

NextDenovo/NextPolish软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

2.桃金娘基因组组装的质量评估

采用了多种数据和方法对桃金娘基因组进行组装。HI-C矩阵表明,11条染色体被充分和合理地组装(图1B),其数量与以前的记录一致。同时,调查和组装中使用的短读数和HIFI读数数据的比对显示出约99.96%和约99.93%的定位率。BUSCO评估表明,97.7%和99.0%的核心保守植物基因在组装中完整。长末端重复序列(LTR)的完整性测试显示,该组装的LTR组装指数(LAI)为16.16,与无gap组装类似。这些数据表明桃金娘基因组组装质量高。

3.桃金娘基因组进化

系统发育进化分析表明,桃金娘属和石榴属之间的分歧时间约为1437万年前(MYA),而953个和714个基因家族分别显示了桃金娘的扩张和收缩(图2A-B)。三种桃金娘科植物和石榴属植物之间的共线性分析表明,它们是完全连续的共线性。同时,在与桃金娘的比对中,巨桉(E. grandis,桃金娘科桉属)比番石榴(P. guajava,桃金娘科番石榴属)检测到更多的染色体倒置,这可能导致桃金娘科内部的分化(图2C)。

桃金娘科物种的同义替换位点(Ks)的分布在Ks≈1.25处达到峰值,这表明桃金娘与其他桃金娘科植物共享一个共同的近期WGD事件(图2D)。进一步确定了桃金娘科的WGD事件在66.58–95.50 MYA发生(图2A)。

图2 桃金娘与其他物种的系统发育和共线性分析

4.桃金娘器官间基因表达模式与果实软化相关代谢

为了探索桃金娘器官中的基因表达模式,研究者使用来自不同器官和发育阶段的10种类型样本中的25038个表达基因构建了加权相关网络(WGCNA)。先前关于番石榴的研究表明,果实软化和成熟的过程与细胞壁活性和淀粉降解有关。桃金娘是进一步探索桃金娘科肉质果实发育机制的良好材料。相关分析检测到器官和样本发育阶段高度相关的共表达模块(r>0.8)(图3A)。与番石榴相似,桃金娘的淀粉含量随着果实发育而降低(图3C)。根据KEGG注释,鉴定到桃金娘7个家族中的20个淀粉降解相关基因。相关基因的表达分析表明,淀粉-聚糖过程(GWD/ISA)基因主要在F1阶段表达(图3D)。F3和F4中鉴定出多个参与单糖或多糖代谢的高度特异性表达基因拷贝,包括RmAGL-1RmAGL-2RAMY-1RMBAMM-5。此外,这些参与淀粉降解的基因在叶片或茎衰老过程中也高度表达。这与多种物种的器官老化过程一致。

图3 桃金娘不同组织中的基因表达模式及淀粉降解途径

5.桃金娘果实发育过程中与色素和花青素合成相关的代谢产物和基因表达模式

果实成熟期间的着色是桃金娘的一个指示性特征(图4A)。形态学观察和总花青素含量的测定表明,在F3至F4期间,桃金娘果实中的花青素含量急剧增加,果实颜色也变为紫色(图4A-B)。

UP-MS的代谢产物分析在来自桃金娘三个器官的6种样品中检测到189种黄酮类化合物。这些代谢物分为9个丰度集群(图4C)。在花青素合成的核心过程中,包括RmCHI-1RmCHI-2RmF3HRmDFRRmANS,都在F3阶段高度表达。这一趋势对应于从F3到F4(开花后75到90天;图4C-D)桃金娘果实颜色花色苷含量的急剧变化和增加。

图4 代谢产物丰度聚类和黄酮类化合物(主要是花青素分支)合成途径

6.桃金娘科植物果实的着色和花青素的积累

本研究用番石榴和桃金娘作比较,番石榴果实中的花青素合成活性没有增强,与番石榴果实的底色一致(图4D-E)。此外,对这两个物种的花青素合成下游途径的比较研究表明,OMT基因的CNV(拷贝数变异)是花青素糖基化所必需的。由串联重复拷贝数变化产生的两个基因拷贝(RmOMT 4/RmOMT-5)位于1号染色体末端(图5A)。表达分析表明,RmOMT-4的表达在果实中特异性增加,而RmOMT-5也在果实成熟的所有阶段表达,但在根部表达最高(图4D)。基于系统发育关系的亚家族分析表明,桃金娘中的GSTU亚家族基因多于番石榴(图5B)。该亚家族被证明参与花青素转运,值得进一步研究。

图5 分析基因拷贝数、MYB和GST基因家族系统发育、MYB差异表达基因以及正向选择基因

7.正选择的MYB基因对桃金娘花色苷合成的潜在影响

研究者发现番石榴中四个MYB基因的同源基因中没有检测到高表达(图5C)。系统发育分析表明,RmPAP1RmPAP2与拟南芥中的PAP1MYB75PAP2MYB90)以及AtMYB113聚集,其高表达已被证明可促进花青素合成。这两种MYB转录因子的共表达网络包含花青素合成途径中的九个基因(图5D)。同时,对桃金娘科植物中正选择基因的检测表明,这些基因包含32个MYB转录因子,包括RmPAP-2RmMYB113。这种种间表达趋势的差异和花色苷的MYB调节因子进化中的正向选择可能会导致桃金娘的果实着色(图5E)。

本研究介绍了桃金娘科第一个无gapT2T基因组,确定了桃金娘花色苷的主要化合物及其合成途径。基因表达的模式分析和通路识别进一步丰富了对桃金娘肉质果实发育的认识。比较基因组和基因表达分析为果实中花青素的积累和着色提供了可能的机制。该基因组组装为研究桃金娘科肉质果实的起源和加速桃金娘的遗传改良奠定了基础。

Next系列软件应用 | 白菜近完成图组装为着丝粒的进化提供了新的见解

白菜基因组是芸薹属首个也是使用最广泛的参考基因组,然而,目前的白菜参考基因组(Chiifu v3.0)仍有407个缺口和1.45Mb的相对较短的contig N50,完整的基因组序列信息对于理解基因组结构和进一步促进关键农艺性状的遗传改良至关重要。本研究中,使用ONT测序和Hi-C技术,展示了第一个白菜近完成图,代表了最高的完整性、可靠性和质量,将推动未来芸薹属基因组结构和功能基因的发现。

发表期刊:Plant Biotechnology Journal  
发表时间:2023.01.23

研究思路

研究结果

1.白菜基因组组装  
本研究使用ONT和Hi-C技术对白菜(Chiifu-401-42)进行了测序。使用NextDenovo(v2.5,https://github.com/Nextomics/NextDenovo)进行校正ONT和Illumina读数得到的contig。生成了12个contigs,contig N50为38.26Mb。利用Hi-C数据进行支架构建后,将所有contigs锚定在十条染色体上(图1)。

NextDenovo软件是由希望组自主研发的三代测序基因组组装工具,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组,具有高纠错、高效组装、高准确度的优势,已帮助众多科研人员进行基因组的组装以及文章的发表。

图1 白菜基因组组装

2.ALECRM LTR对白菜着丝粒的侵袭

序列分析显示,94.23%的着丝粒区域被LTR占据(图2a)。在Chiifu v4.0的这555个着丝粒基因中,17.66%被转录,远低于整个基因组的基因转录比。为了更好地理解着丝粒的远程组织,生成了一个热图,显示了着丝粒上的成对序列身份。结果表明,在Chiifu v4.0中,着丝粒被破坏成着丝粒序列中的不同区域(图2b-c)。值得注意的是,在12个FL-LTR -RTs家族中,539个ALE和281个CRM LTRs在着丝粒的这些侵入区域内的拷贝数显著增加(图2b-c)。这些结果表明,着丝粒主要受到ALECRM LTR的入侵,进一步形成了白菜的着丝粒结构。

图2 白菜参考基因组Chiifu v4.0的着丝粒特征分析

3.白菜基因组着丝粒的多样性

染色体共线性分析表明,在所有白菜参考基因组中,同源着丝粒很少或没有序列共线性。例如,与染色体臂不同,Chiifu v4.0和基因组“A03”之间的着丝粒CentA04几乎没有序列共线性(图3a)。将Chiifu v4.0的其他七个完整着丝粒与基因组“A03”、ECD04和Z1 v2的同源着丝粒进行比较时,也观察到了很小的序列共线性。总之,这些结果表明,在不同的白菜基因组中,着丝粒是高度可变的。

图3 白菜基因组染色体共线性分析

4.快速扩增的LTR驱动着丝粒的进化

作者进一步注释了基因组“A03”、ECD04和Z1 v2中的FL-LTR-RT。在基因组“A03”、ECD04和Z1 v2的着丝粒区域共鉴定出1 001、993和767个FL-LTR-RT,这与Chiifu v4.0的着丝粒中FL-LTR-RTs的数量相似(图3b)。分析FL-LTR-RT在着丝粒中的插入时间表明,在Chiifu v4.0、“A03”、ECD04和Z1 v2中,78.83%-86.04%的FL-LTR-RTs扩增≤0.5 MYA,38.57%-57.78%的FL-LTR-RT扩增≤0.1 MYA。相比之下,在Chiifu v4.0、“A03”、ECD04和Z1 v2的着丝粒中,5.64%-7.86%的扩增>1MYA(图3b)。此外,在Chiifu v4.0、“A03”、ECD04和Z1 v2的着丝粒中分别检测到539、612、605和451个ALE  LTRs和281、261、214和214个CRM LTRs(图3d)。这些发现表明,LTRs是共享的,但在白菜的着丝粒中显示出不同的年龄和拷贝数。

根据最近的一项研究,作者将年龄≤0.5 MYA的FL-LTR-RT定义为年轻LTR,将年龄>0.5 MYA定义为老年LTR。FL-LTR-RTs的年龄分布分析表明,白菜LTR的着丝粒区域丰富(图4a)。Chiifu v4.0中不同染色体区域的LTR插入时间的进一步比较表明,着丝粒中的FL-LTR-RT显著年轻(平均0.14 MYA),比全基因组的FL-LTR-RT(平均0.32 MYA(图4b)。发现Chiifu v4.0中着丝粒中心部分的LTR比着丝粒的其他部分年轻得多(图4c)。此外,在Chiifu v4.0中发现了83个FL-LTR-RT的嵌套插入事件,这些事件远少于黑芥。总之,该结果表明,LTR在着丝粒中快速扩增,这可能会驱动白菜着丝粒的进化。

图4 白菜参考基因组Chiifu v4.0的着丝粒中的LTRs插入时间分析

5.旧的LTRs富集于白菜的近着丝粒

在Chiifu v4.0中比较了外周着丝粒和其他染色体区域之间LTR的插入时间后,作者发现近中心点中FL-LTR-RT的插入时间(平均0.51 MYA)明显比整个基因组的插入时间长(平均0.32 MYA),并且比着丝粒中的插入时间更长(平均0.14 MYA(图4b))。在基因组“A03”、ECD04和Z1 v2中发现了类似的模式(图4b)。比较近着丝粒和着丝粒之间的LTR发现,Gypsy LTRs在近着丝粒富集,而着丝粒富集的CopiaGypsy LTRs更多(图5c-e)。此外,Gypsy LTRs的插入时间(平均0.29-0.38 MYA)显著长于Copia LTRs(平均0.14-0.22 MYA)(图5f),这可能是白菜近着丝粒中LTRs插入时间早于着丝粒的原因。

图5 LTRs富集在白菜的近着丝粒

总之,接近完整的基因组组合,白菜Chiifu v4.0为芸薹属研究界提供了关键的基因组资源,并揭示了白菜中着丝粒的快速进化。这些资源将为阐明芸薹属植物的基因组结构和功能提供坚实的基础。

项目文章 | Nat Commun! 利用ONT测序揭示基因组结构不稳定性驱动piRNA进化历程以保护基因组完整性的机制

近日,美国罗切斯特大学医学中心生物化学和生物物理学系RNA生物学中心联合西北农林科技大学动物科学与技术学院、加拿大麦吉尔大学在Nature Communications杂志发表了题为“Amniotes co-opt intrinsic genetic instability to protect germ-line genome integrity”的论文。论文通过对鸡、鸭、小鼠和人类的比较研究,以及对不同品种鸡的长读长纳米孔测序,揭示了粗线期piRNA的功能,以及其快速进化历程。

美国罗切斯特大学的孙禹,西北农林科技大学的崔宏晓,美国俄亥俄州立大学的宋驰和浙江大学医学院附属第四医院的沈加飞为并列第一作者,加拿大麦吉尔大学的赵辛和美国罗切斯特大学的李鑫为共同通讯作者。希望组梁帆、陶庆参与了该项研究工作。

研究思路

01鸟类粗线期piRNA迅速分化
为了揭示鸡piRNA的表达图谱,研究者通过收集鸡(雅典加拿大肉鸡随机繁殖品系,ACRB)在八个关键发育阶段(第1天至30周性成熟;图1a,i)的睾丸组织,分析了第一波精子发生过程(图1a,i)的RNA变化。大多数piRNA在12至18周的过渡期表达(图1a、ii和iii),即精子发生第一波过程中减数分裂的时期。这一阶段与CIWI的mRNA表达一致(图1a,iv),CIWI是一种PIWI家族基因,其在小鼠中的同源基因与粗线期piRNAs特异性结合。研究者还检测到粗线期精母细胞胞浆中CIWI蛋白的阶段特异性染色(图1b),并绘制出了八个发育阶段中每个piRNA基因座的piRNA丰度,发现在粗线期检测到大量表达,而在早期阶段几乎没有piRNA(图1c),表明成年睾丸中的大多数piRNA都是粗线期piRNA。与哺乳动物粗线期piRNA类似,成年鸡睾丸中的大多数piRNA不是来自重复区域或基因区域(图1a,iii)。这些结果表明鸡中存在粗线期piRNA,而且粗线期piRNA在鸟类和哺乳动物生殖细胞发育过程中大量表达。在功能水平上,虽然在鸭睾丸中检测到大量的piRNA,但与鸡piRNA基因座同源的136个基因座并不产生piRNA(图1d)。研究者得出结论,哺乳动物和鸟类粗线期piRNA的共同特征是快速分化。考虑到与哺乳动物基因组相比,鸟类基因组在核苷酸序列、基因共线性和染色体结构方面表现出高度的进化停滞,piRNA在哺乳动物和鸟类之间的快速分化是其进化的共同特征。

图1 鸡粗线期piRNA的存在

02piRNA基因座是鸟类和哺乳动物的结构变异(Structural variation,SV)热点
研究者使用ONT进行测序,并达到每只鸡31X的测序深度。与未驯化野生鸡的参考基因组相比,每只家鸡共发生17321±777次SV事件(图2a,b)。虽然piRNA基因座仅占鸡基因组的0.98%,但SV发生在粗线期piRNA基因座的频率更高:12.4%的串联重复、19.4%的倒位、1.7%的缺失和1.2%的插入与piRNA基因座位重叠(图2a,iii)。同时发现,在piRNA基因座中,串联重复、倒位和缺失的富集是显著的(图2c)。

piRNA基因座中的SV也与piRNA在表达量(图3a)、正义/反义链表达方向(图3b)和不同piRNA序列的相对丰度(图3c)的变化相关。研究者量化了piRNA丰度、链偏向性和香农多样性指数的个体差异,发现piRNA基因座内的SV区域显著高于缺乏SV的piRNA基因(图3d)。因此,与SV热点重叠与piRNAs的快速分化相关。

图2 鸡piRNA位点是SV热点

图3 实现piRNA可塑性的保守机制

03piRNA位点与SV热点重叠的收敛进化
研究者设想了导致piRNA基因座和SV热点之间关联的三种可能机制(图4a):(1)piRNA基因和SV热点独立起源,它们的重叠是在共同选择压力下趋同进化的结果(收敛假说);(2) SV热点首先出现,增加了基因组区域进化为piRNA基因座的机会(突变假说);以及(3)保守的分子机制将piRNA的生成与SV的形成联系起来(保守假说),例如piRNA的产生导致基因组不稳定性或SV造成的DNA损伤触发了piRNA的形成。研究者发现与随机打乱的基因组序列相比,鸡piRNA位点对转座子(Transposable element,TE)的富集显著,但节段重复(Segmental duplication,SD)相对缺失(图4b)。总之,该数据表明,鸡、小鼠和人类piRNA基因座上的SV热点是独立形成的,由不同的突变机制导致(图4c)。因此,趋同进化导致SV热点和粗线期piRNA基因座在鸟类和哺乳动物的基因组中重叠。

图4 趋同进化驱动了SV热点和粗线期piRNA位点之间的关联

04粗线期piRNA的保守功能是抑制活跃的转座子
与基因组的其余部分相比,小鼠和人类粗线期piRNA基因座中的活跃TE序列并没有更少:小鼠的比例为1.6%,人类为1.0%(图5a)。研究者利用了Mov10l1突变体小鼠进行研究,该突变体可以正常进行减数分裂,但在圆形精子细胞阶段停止发育。在对圆形精子细胞成像发现,Mov10l1突变体中有8±2个γH2AX聚焦点(DNA损伤的标志物),而野生型细胞则没有任何聚焦点(图5b)。利用RNA-seq发现,尽管83%的TE家族(1223个家族中的1020个)的表达没有改变,但大多数活跃TE家族的表达在Mov10l1突变体睾丸中显著增加(图5c)。通过对Mov10l1突变体睾丸中的piRNA Ping-Pong信号分析显示,靶向这些TE的piRNA引导的切割显著减少(图5d),从而表明Mov10l1突变体睾丸的TE是被靶向TE的粗线期piRNAs所抑制。尽管只有2.4%的鸡粗线期piRNA基因座编码活跃的TE,但所有活跃的TE家族都被粗线期piRNA靶向(图5e)。

图5 抑制活跃转座子是粗线期piRNA的保守功能,同时也驱动了粗线期piRNA进化

05piRNA变异和有害SV之间的适应性平衡
与不产生piRNA的其他SV热点相比,研究者发现piRNA基因座与人类和鸡的蛋白质编码基因显著更接近(图5f),表明源自piRNA位点的SV比其他SV热点更可能损害蛋白质功能。人染色体15q上的多个致病性SV位点就是一个典型的例子(图5g)。这些SV仅在年轻的piRNA基因座中富集,这表明它们不会在长期进化过程中被选择下来。因此,粗线期piRNA基因座比其他SV热点更有害,SV热点通过产生新的piRNA来保护基因组完整性的功能产生的益处使得源自piRNA基因的SV在体细胞中的致病作用是可以忍受的。

项目文章 | 超长测序+NextDenovo助力盾叶薯蓣高质量基因组解析与薯蓣皂苷生物合成进化

自1930年代中期从山萆薢(Dioscorea tokoro)根状茎中分离出薯蓣皂素,特别是1943年以薯蓣皂素为起始原料成功地合成黄体酮以来,由于简便、经济,薯蓣皂素成为不可替代的合成甾体激素类药物的理想原料已近90年。薯蓣属植物中,部分物种具有重要的食用价值,很多薯蓣属植物根状茎/块茎中含薯蓣皂素,最高记录为我国特有种盾叶薯蓣(Dioscorea zingiberensis),其单株根状茎薯蓣皂素最高含量达16.15%。盾叶薯蓣也因此被认为是世界上最理想、最重要的甾体激素药源植物之一。薯蓣皂素在植物体内通常以薯蓣皂苷形式存在。研究薯蓣皂苷的生物合成、起源和进化具有重要意义。然而,由于薯蓣属植物遗传背景复杂,缺少高质量的染色体级别基因组信息,薯蓣皂苷生物合成与演化机制的研究难以深入。

近日,Horticulture Research 上线了(Advance Access)武汉大学李家儒课题组题为The genome of Dioscorea zingiberensis sheds light on the biosynthesis, origin and evolution of the medicinally important diosgenin saponins 的研究论文。

该研究采用三代Oxford Nanopore、Hi-C、10X Genomics技术进行盾叶薯蓣全基因组测序,组装得到一个染色体水平的参考基因组。本次发布的盾叶薯蓣基因组大小为629 Mb,contig N50为1.16 Mb,scaffold N50 为55.78 Mb。共有93.39%的基因组序列被组装到10对染色体上(图1a)。BUSCO和CEGMA分析结果显示基因组完整性分别为96.84%和97.98%,表明基因组组装完整性较高。希望组为本研究提供了测序及Nextdenovo软件服务,并参与了基因组组装、注释及后续分析工作。

研究发现,盾叶薯蓣基因组中存在大量扩张的基因家族(图1b),其中,参与薯蓣皂苷生物合成的基因家族如CYP450、UGT以及OSC等基因家族成员数量显著扩增,这可能是盾叶薯蓣能够大量合成薯蓣皂苷的主要原因之一。进化基因组分析表明盾叶薯蓣基因组经历了两次全基因组加倍事件(图1c)。通过推算基因组加倍事件发生的时间,基因串联重复事件以及薯蓣皂苷合成关键基因家族的复制时间,该研究表明,盾叶薯蓣基因组中全基因组加倍事件以及基因的串联重复产生了大量的基因家族成员扩增,这为盾叶薯蓣中薯蓣皂苷生物合成途径提供了关键的进化资源。

图1 盾叶薯蓣基因组的特征及基因组进化分析

通过盾叶薯蓣中薯蓣皂素时空变化、免疫组织化学定位及转录组分析,发现薯蓣皂素首先在叶片合成,转化为薯蓣皂苷,然后运输到地下根茎中储存(图2)。通过评估薯蓣属物种中薯蓣皂苷的分布和进化模式发现,薯蓣皂苷可能是薯蓣属植物中某种祖先性状被选择性保留。对13 种薯蓣属植物的转录组和代谢物进行比较分析表明,薯蓣皂苷生物合成通路基因的特定表达模式促进了薯蓣属植物薯蓣皂苷生物合成途径的差异性进化。

图2 盾叶薯蓣不同组织中薯蓣皂素的分布及基因表达水平比较

综上所述,该研究聚焦薯蓣属植物,在获得高质量染色体水平的盾叶薯蓣参考基因组的基础上,进一步深入解析了薯蓣皂苷的生物合成、起源与进化,为薯蓣皂苷的工业化生产提供了宝贵基因资源,也为植物特异代谢物的生物合成与进化研究,提供了新的视角和范例。

武汉大学生命科学学院博士生李毅为论文第一作者,武汉大学生命科学学院李家儒教授为该论文通讯作者,美国国家自然历史博物馆文军教授、美国华盛顿州立大学David Gang教授、中国科学院植物研究所漆小泉研究员、韶关学院包英华副教授、中国科学院西双版纳热带植物园陈江华研究员、广西大学陈玲玲教授和华中农业大学杨庆勇教授、希望组公司孙宗毅及王凯参与了该研究。该项目得到了国家自然科学基金项目(30370152、31270345和31470388)的资助。