科研动态 – 第5页 – GrandOmics|希望组

项目文章 | 超长测序+NextDenovo助力盾叶薯蓣高质量基因组解析与薯蓣皂苷生物合成进化

2022-08-17/0 评论/在科研动态 /通过 zu

自1930年代中期从山萆薢（Dioscorea tokoro）根状茎中分离出薯蓣皂素，特别是1943年以薯蓣皂素为起始原料成功地合成黄体酮以来，由于简便、经济，薯蓣皂素成为不可替代的合成甾体激素类药物的理想原料已近90年。薯蓣属植物中，部分物种具有重要的食用价值，很多薯蓣属植物根状茎/块茎中含薯蓣皂素，最高记录为我国特有种盾叶薯蓣（Dioscorea zingiberensis），其单株根状茎薯蓣皂素最高含量达16.15％。盾叶薯蓣也因此被认为是世界上最理想、最重要的甾体激素药源植物之一。薯蓣皂素在植物体内通常以薯蓣皂苷形式存在。研究薯蓣皂苷的生物合成、起源和进化具有重要意义。然而，由于薯蓣属植物遗传背景复杂，缺少高质量的染色体级别基因组信息，薯蓣皂苷生物合成与演化机制的研究难以深入。

近日，Horticulture Research 上线了（Advance Access）武汉大学李家儒课题组题为The genome of Dioscorea zingiberensis sheds light on the biosynthesis, origin and evolution of the medicinally important diosgenin saponins 的研究论文。

该研究采用三代Oxford Nanopore、Hi-C、10X Genomics技术进行盾叶薯蓣全基因组测序，组装得到一个染色体水平的参考基因组。本次发布的盾叶薯蓣基因组大小为629 Mb，contig N50为1.16 Mb，scaffold N50 为55.78 Mb。共有93.39%的基因组序列被组装到10对染色体上（图1a）。BUSCO和CEGMA分析结果显示基因组完整性分别为96.84%和97.98%，表明基因组组装完整性较高。希望组为本研究提供了测序及Nextdenovo软件服务，并参与了基因组组装、注释及后续分析工作。

研究发现，盾叶薯蓣基因组中存在大量扩张的基因家族（图1b），其中，参与薯蓣皂苷生物合成的基因家族如CYP450、UGT以及OSC等基因家族成员数量显著扩增，这可能是盾叶薯蓣能够大量合成薯蓣皂苷的主要原因之一。进化基因组分析表明盾叶薯蓣基因组经历了两次全基因组加倍事件（图1c）。通过推算基因组加倍事件发生的时间，基因串联重复事件以及薯蓣皂苷合成关键基因家族的复制时间，该研究表明，盾叶薯蓣基因组中全基因组加倍事件以及基因的串联重复产生了大量的基因家族成员扩增，这为盾叶薯蓣中薯蓣皂苷生物合成途径提供了关键的进化资源。

图1 盾叶薯蓣基因组的特征及基因组进化分析

通过盾叶薯蓣中薯蓣皂素时空变化、免疫组织化学定位及转录组分析，发现薯蓣皂素首先在叶片合成，转化为薯蓣皂苷，然后运输到地下根茎中储存（图2）。通过评估薯蓣属物种中薯蓣皂苷的分布和进化模式发现，薯蓣皂苷可能是薯蓣属植物中某种祖先性状被选择性保留。对13 种薯蓣属植物的转录组和代谢物进行比较分析表明，薯蓣皂苷生物合成通路基因的特定表达模式促进了薯蓣属植物薯蓣皂苷生物合成途径的差异性进化。

图2 盾叶薯蓣不同组织中薯蓣皂素的分布及基因表达水平比较

综上所述，该研究聚焦薯蓣属植物，在获得高质量染色体水平的盾叶薯蓣参考基因组的基础上，进一步深入解析了薯蓣皂苷的生物合成、起源与进化，为薯蓣皂苷的工业化生产提供了宝贵基因资源，也为植物特异代谢物的生物合成与进化研究，提供了新的视角和范例。

武汉大学生命科学学院博士生李毅为论文第一作者，武汉大学生命科学学院李家儒教授为该论文通讯作者，美国国家自然历史博物馆文军教授、美国华盛顿州立大学David Gang教授、中国科学院植物研究所漆小泉研究员、韶关学院包英华副教授、中国科学院西双版纳热带植物园陈江华研究员、广西大学陈玲玲教授和华中农业大学杨庆勇教授、希望组公司孙宗毅及王凯参与了该研究。该项目得到了国家自然科学基金项目（30370152、31270345和31470388）的资助。

项目文章| 1028Gb超长测序+NextDenovo助力六倍体栽培燕麦的起源与进化研究

2022-08-17/0 评论/在科研动态 /通过 zu

燕麦作为谷物中最好的全价营养食品，因其富含蛋白质、不饱和脂肪酸以及可溶性膳食纤维而广受消费者青睐。同时，栽培燕麦是六倍体作物，它在生物量、活力和对环境变化的适应性方面均具有多倍体植物的显著优势，在应对粮食安全挑战中可以发挥其独特作用。

北京时间2022年7月18日晚23时，国家燕麦荞麦产业技术体系首席科学家任长忠研究员领衔的以四川农业大学和吉林省白城市农业科学院为核心的燕麦研究团队在《自然-遗传学》Nature Genetics 上发表了题为 “Reference genome assemblies reveal the origin and evolution of allohexaploid oat” 的研究论文。

原文来自该项目课题组

该研究工作由四川农业大学和吉林省白城市农业科学院联合中国科学院遗传与发育生物学研究所、四川大学、西昌学院、中国农业科学院和武汉希望组生物科技有限公司合作完成，并得到了国家燕麦荞麦产业技术体系，国家自然科学基金，吉林省人才开发基金和吉林省科技发展计划等项目的资助。

四川农业大学彭远英、颜红海、邓操，吉林省白城市农业科学院郭来春、王春龙和四川大学王毓博为论文共同第一作者，吉林省白城市农业科学院任长忠研究员、中国科学院遗传与发育研究所鲁非研究员、四川大学马涛教授、四川农业大学魏育明教授和彭远英教授为论文共同通讯作者。希望组参与组装注释以及部分分析工作。

该研究发布了栽培六倍体裸燕麦及其二倍体和四倍体祖先的参考基因组，并进一步选择能代表燕麦属现存所有基因组类型的二倍体、四倍体和六倍体材料结合全基因测序、叶绿体基因组和转录组分析，深入探究六倍体燕麦的起源与亚基因组进化。

基因组组装

燕麦(Avena sativa L., 2n = 6x = 42, AACCDD 基因组) 作为重要的粮饲兼用型作物，由于其基因组为异源六倍体组成，基因组大（~11G）、重复序列含量高（~87%）且亚基因组间存在大量的交换，导致其基因组组装难度较大，相关研究一直滞后。研究团队利用近20年的燕麦属物种研究经验，针对六倍体燕麦亚基因组构成及其在基因组组装中可能遇到的问题，设计了利用ultra-long三代测序结合HiC、二代测序、Iso-seq和RNA-seq，并同时组装栽培燕麦最可能的四倍体和二倍体祖先的策略。项目组首先选择来自裸燕麦起源中心的传统地方品种“三分三”为材料，基于1028Gb的三代超长序列，并使用650 Gb的二代数据进行校正，组装了10.76 Gb的燕麦基因组，基于1296 Gb的Hi-C数据将99.06%的基因组序列挂载到燕麦21条染色体上（表1）。基因组组装从contig N50（75.27Mb），LAI（18.34）、BUSCO（99.44%）以及与来自六倍体燕麦一致性图谱标记的共线性等多方面进行质量评估，均显示了所组装基因组的高质量。为了准确区分亚基因组并阐明六倍体燕麦的多倍化历史，我们对其最可能的祖先物种A. longiglumis（2n=2x=14，AlAl基因组）和A. insularis（2n=4x=28，CCDD基因组）同时进行了测序和组装，分别构建了3.74 Gb和7.52 Gb的二倍体和四倍体参考基因组。基于这三个物种染色体之间的相似性，我们明确了六倍体燕麦21条染色体的A、C和D亚基因组归属，完成了六倍体的染色体组装、挂载和注释，获得了燕麦染色体级别的高质量参考基因组（图1）。

图1 AlAl基因组二倍体、CCDD基因组四倍体和AACCDD六倍体栽培燕麦的基因组。a， A和D基因组染色体着丝粒位置；b， C基因组特异性重复序列Am1在染色体上的分布。其中，三分三的的1A、2D、3D、4D和5D染色体上富含Am1的区域是C基因组渗入；c， A基因组特异性重复序列As120a在染色体的分布；d，k-mer频率；e，串联重复（TR）密度；f， LTR密度；g，基因密度；h，染色体名称和大小。最内层显示六倍体及其祖先物种的共线性，上层的彩色表示每个六倍体染色体及其祖先染色体的共线性，灰色的下层显示六倍化后的染色体重排。

系统进化基因组分析

为进一步阐明燕麦在禾本科谷类作物中的进化地位，我们进行了主要禾谷类作物的系统进化基因组学分析。通过鉴定到的2237个同源单拷贝核基因对燕麦及其相关禾谷类作物的系统分析结果表明：燕麦族和小麦族之间的分化发生在稻族形成之后，且燕麦族与多花黑麦草的亲缘关系比与小麦族更近。通过与以水稻为代表的祖先核型和普通小麦的三个亚基因组进行比较，明确燕麦不同亚基因组的核型进化历史并发现在燕麦中存在大量染色体重排（图2）。

图2 禾谷物作物的系统基因组关系。a，燕麦及其相关禾谷类作物系统发育和分化时间；b，燕麦族、多花黑麦草和小麦族中共享和独特基因家族的数量韦恩图；c，燕麦和小麦可能的染色体进化核型模式。亚基因组染色体不同的颜色显示其来源于水稻不同的染色体（Os1–Os12）片段，水稻染色体可以作为祖先染色体核型（AGK1–AGK12）的代表；d，燕麦和小麦三个亚基因组之间的染色体共线性。

选择能代表燕麦属所有基因组亚型和不同倍性水平的物种进行基于全基因组重测序、转录组测序和叶绿体基因组的系统发育分析，结果一致表明Al/As基因组二倍体以及四倍体A. insularis 的C和D亚基因组分别与六倍体燕麦的A、C和D亚基因组具有最高的相似性，且通过叶绿体基因组确定D基因组是六倍体燕麦的母本供体，而C基因组二倍体作为栽培燕麦的父本基因组，通常比母系起源的基因组更容易发生染色体变异，与本研究中燕麦C基因组二倍体和多倍体物种的C亚基因组间相对较低的共线性一致。由此，我们明确了栽培燕麦的多倍化历史并提出了燕麦属物种的网状进化模式。现有的ACD基因组六倍体栽培燕麦是以Al/As基因组二倍体祖先为父本，和CD-基因组四倍体A. insularis为母本杂交加倍后形成的（图3）。

图3 六倍体燕麦的网状进化模式图

燕麦多倍化过程中的染色体结构变异

为了研究燕麦多倍化过程中发生的染色体结构变异，我们对二倍体、四倍体和六倍体物种进行了共线性分析。结果表明，在燕麦多倍化过程中发生了多次大的易位和倒位事件，我们通过荧光原位杂交证实了这些染色体结构变异（图4）。此外，在燕麦四倍体中主要是非同源染色体间的染色体易位，仅有3.91%发生在同源染色体之间，而六倍体中高达49.69%的易位是在同源染色体之间发生的，且六倍体燕麦中的同源交换有88.4%（931.94/1054.30 Mb）发生在A和D亚基因组之间，远高于A和C（11.2%，117.71/1054.30 Mb）或D和C（0.04%，4.66/1054.30 Mb），表明六倍化后的同源交换在栽培燕麦基因组结构的形成中发挥了重要作用，且在多倍体细胞核中关系更近的同源基因组更易于产生亚基因组间的重组，六倍体燕麦中A和D亚基因间相似性很高，而这两个基因组与C亚基因间的差异相对较大，因此同源交换主要发生在A和D亚基因组之间，且这两个基因组间大量频繁的染色体重组形成了类似马赛克的染色体镶嵌结构，这也是六倍体燕麦的A和D亚基因组起源问题一直存在争议的重要原因。

图4 燕麦属物种多倍化过程中的染色体结构变异。a，六倍体燕麦的亚基因组与可能的四倍体和二倍体祖先之间的共线性。黄色和蓝色箭头和线条分别代表观察到的来自A和C基因组的大染色体易位（>40MB）。深灰色箭头和线条表示四倍体A. insularis和“Sanfensan”之间3C染色体倒位；b，将C基因组二倍体序列比对到六倍体参考基因组显示C-A和C-D基因组间的大片段易位； c，C基因组特异性重复序列为探针的FISH证实了C-A和C-D基因组易位。来自A基因组特异性重复序列（As120a）的荧光信号以绿色显示，来自C基因组特异性重复序列（Am1）的信号以红色显示。白色箭头表示C-D和C-A基因组间易位；d， FISH验证六倍体燕麦基因组中3C染色体倒位。探针5SrDNA（红色）和6C343（绿色）分别在四倍体3C染色体的短臂和长臂上出现了明显的杂交信号，而这两个信号都同时出现在六倍体3C染色体的长臂。

六倍体燕麦中亚基因组优势

此外，多方面的证据显示六倍体燕麦在进化过程中已出现优势亚基因组（图5）：首先PAV分析显示在C亚基因组中的基因丢失率较高，且C亚基因组中有更多收缩的基因家族；第二，Ka/Ks分析表明C亚基因组受到的纯化选择少于六倍体燕麦的其他两个亚基因组；第三，C亚基因组包含更多转座因子（TE），并且在基因附近显示出比A和D亚基因组更高的TE密度，而基因附近TE密度相对较高的基因往往具有较低的表达水平；第四，通过对干旱、水涝、高温、低温、盐胁迫和碱胁迫下以及燕麦不同组织的亚基因组的表达模式分析表明C亚基因组中表达的基因数量显著低于A和D亚基因组，这些结果均表明六倍体燕麦中存在亚基因组优势。

图5 燕麦属物种多倍化过程中的亚基因进化。a，四倍体和六倍体燕麦在多倍化过程中相对其二倍体亲本的同源基因丢失情况（PAV）；b，六倍体燕麦三个亚基因组Ka/Ks值分布；c，六倍体燕麦三个亚基因组中基因附近TE密度的比较。相对于A和D亚基因组中的同源染色体，C亚基因组中基因附近的TE密度最高；d，六倍体燕麦A、C和D三个亚基因组的同源基因表达差异。

燕麦抗病基因的定位和克隆

燕麦在生长中受到病害的威胁，其中最严重的是冠锈病。NBS-LRR蛋白质由一类抗性基因（R基因）编码，在植物免疫中发挥重要作用。我们在六倍体燕麦的三个亚基因组中鉴定了1269个R基因，与四倍体和二倍体不同亚基因组中鉴定的数量相比显示出收缩。大多数R基因在染色体端部成簇出现，且与燕麦已知的冠锈病基因QTL区段共定位，表明本研究构建的燕麦参考基因组可以为燕麦抗病基因的定位和克隆提供有效的参考（图6）。

图6 | R基因在燕麦基因组中鉴定及其在染色体上的分布。a，比较六倍体燕麦及其假定祖先基因组中R基因数量；b，冠锈病抗性QTL位点和R基因在六倍基因组染色体上的分布。

燕麦的皮裸性状

栽培燕麦根据其籽粒外壳包被情况，分为皮燕麦和裸燕麦两类。燕麦籽粒的皮裸性状是重要的驯化性状之一（图7a）。本研究通过对659份不同来源地的栽培燕麦的49702个SNP进行了全基因组关联分析，在染色体4D末端检测到显著关联区域，与之前报道的控制皮裸性状的N1基因位点区域一致。候选基因预测筛选到一个注释为受体样激酶（RLK）的基因，该基因在拟南芥中的同源基因AtVRLK1参与次生细胞壁加厚，在水稻的同源基因mis2的突变体中显示开壳小穗。比较该基因在皮、裸燕麦中的编码序列差异，发现在第一个外显子中的SNP会引起氨基酸变化。根据该SNP位点开发竞争等位基因特异性PCR（KASP）标记验证了其与皮、裸性状的相关性；通过比较10个皮燕麦和12个裸燕麦之间的转录组数据，我们发现该基因在裸燕麦中高表达；同时，在燕麦不同发育阶段的穗部表达模式也表明该基因在裸燕麦穗部发育过程中的表达量远高于皮燕麦。这些结果表明A.satnudsfs4d01g00045是控制燕麦的皮裸性状可能的候选基因（图7）。

图7 燕麦裸粒性状的全基因组关联分析及候选基因预测。a，皮裸燕麦的小穗和籽粒；b，659个燕麦品种全基因组关联分析N1候选区域关联映射的曼哈顿图及其候选基因A.satnudsfs4d01g00045的基因结构；c，基因SNP差异的KASP标记验证A.satnudsfs4d01g00045与皮裸性状之间的关联；d，A.satnudsfs4d01g00045在10个皮燕麦和12个裸燕麦七个不同组织或不同发育时期等量混合的RNA样本中的表达水平；j， A.satnudsfs4d01g00045在裸燕麦“三分三”和皮燕麦“Ogle”穗部不同发育时期的表达水平比较。S1、S2、S3和S4分别代表孕穗期（Zadok’s 45）、抽穗期（Zadok’s 50）、开花期（Zadok’s 58）和灌浆期（Zadok’s 83）的穗。

项目文章 | 超长测序 + Nextdenovo助力四个水稻基因组T2T组装

2022-08-15/0 评论/在科研动态 /通过 zu

北京大学何航研究员、隆平高科杨远柱研究员与广东省农业科学院水稻研究所周德贵副研究员为论文共同通讯作者，北京大学博士生张宜林、隆平高科傅军、王凯博士、北京大学博士后韩雪为论文共同第一作者。北京大学现代农业研究院邓兴旺教授等对本研究提供了支持。本研究得到国家重点研发计划项目、湖南省科技创新计划等重大项目的支持。希望组提供Nextdenovo组装软件支持。

2022年6月24日，北京大学现代农学院邓兴旺实验室何航团队、隆平高科杨远柱团队与广东省农业科学院水稻研究所周德贵副研究员在Plant Biotechnology Journal期刊在线发表了研究论文“The telomere-to-telomere gap-free genome of four rice parents reveals SV and PAV patterns in hybrid rice breeding”，该研究利用HiFi和Ultra-long测序结合的组装策略，完成了湘陵628S、晶4155S、隆科638S与华占4个杂交水稻骨干亲本无缺口参考基因组组装，结合其余六个已发表的杂交水稻亲本基因组，系统分析了结构变异在杂交育种过程中的分布和影响，发现结构变异在F1功能基因及转录杂种优势起着重要作用。该研究展示杂种优势和杂交育种研究已进入无缺口参考基因组水平。

1. 四个两系杂交水稻骨干亲本无缺口参考基因组构建

湘陵628S（XL628S）、隆科638S（LK638S）、晶4155S（J4155S）是隆平高科自主培育的骨干两系不育系，华占（HZ）是中国水稻所与广东省农业科学院水稻研究所共同培育的优秀的两系和三系骨干恢复系，与另一个广泛推广的恢复系五山丝苗(WSSM，R534)属于同一家系（图1A），隆平高科利用隆科638S、晶4155S和华占选配的超级稻品种隆两优华占和晶两优华占连续三年蝉联我国杂交水稻品种推广面积前三位，选配的隆两优534、晶两优534连续多年列我国杂交水稻品种推广面积前十位。利用PacBio(HiFi)和Nanopore(Ultra-long)平台进行三代测序后构建基因组，并通过新的组装方法获得无缺口基因组（图1B）。通过对基因组进行准确性、完整性、连续性的评估，二代测序比对率为98.83%~99.66%，覆盖度大于99.97%。BUSCO值为98.7%~98.9%，LAI值为24.02~24.89。每个基因组上都有着丝粒区和20到22个端粒，证明了基因组组装的高质量（图1C）。湘陵628S、隆科638S、晶4155S和华占无缺口参考基因组的构建，为其功能基因组研究和下一步分子设计育种研究奠定了基础。

2.籼稻基因组结构变异在杂交水稻培育中的应用

基于对以上四个杂交水稻骨干亲本以及已发表的珍汕97(ZS97)、明恢63(MH63)、蜀恢498(R498)、五山丝苗(WSSM)、Y58S、9311的基因组，与日本晴(MSU)进行基因组比对，鉴定出不同水稻亲本之间的结构变异。在日本晴和10个籼稻基因组之间鉴定出422,858-526,481个INDEL和56,817个非冗余的SV，包括52,943个PAV（图1D）。在10个籼稻基因组中，共有2182个功能基因受到PAV的影响，其中565个为籼粳稻之间PAV，包括OsLBD37,SaM,OsMFT1,OsF3H，其余为籼稻内部PAV基因，而其中70个为某一籼稻基因组特有PAV基因，这部分基因可能是该杂交组合表现优异的重要原因。

本研究收集的10个籼稻骨干亲本具有典型的代表性，包括2010年前栽培面积最大的著名杂交稻组合SY63(ZS97A/MH63)；2012-2016年推广面积最大的超级杂交稻品种Y两优1号（Y58S/93-11）；2018-2020年中国推广面积前三位的绿色超级杂交稻组合晶两优华占（J4155S/HZ），隆两优华占（LK638S/HZ）和晶两优534（J4155S/WSSM），以及推广面积前十位的隆两优534（LK638S/WSSM）。分别有593-738个双亲互补PAV基因发生在6个组合中，其中只有46个基因被所有组合共同利用，三个时期的杂交组合中利用的互补基因存在显著差异（图1E）。转录水平杂种优势基因也在互补基因中显著富集（图1F,G）。本研究原始数据与基因组及变异相关数据均在国家基因组科学数据中心PRJCA008812 (BioProject)和Github (https://github.com/yilinZhang-bio/Four-rice-gap-free-genome) 公布。

图1四个杂交水稻亲本无缺口基因组及杂交育种中的PAVs

项目文章 |《Nature Genetics》番木瓜基因组研究

2022-05-25/0 评论/在科研动态 /通过 zu

2022年5月12日，海峡联合研究院基因组与生物技术研究中心研究团队在国际权威学术期刊《自然遗传学》（Nature Genetics）在线发表了题为“ SunUp and Sunset genomes revealed impact of particle bombardment mediatedtransformation and domestication history in papaya”的研究成果。希望组提供Bac-long超长测序服务。

背景介绍

番木瓜是一种优质热带水果，在我国有“岭南佳果”之美誉，拥有“乔木葱葱滋地气，圆实累累衬红霞”的赞叹。番木瓜不仅汁多味甜，而且具有很高的营养和药用价值，在中国的早期典籍《食物本草》中就有记载。

番木瓜科由6个属共40个种组成，番木瓜属于番木瓜科番木瓜属，主要分布于热带和亚热带地区，野生番木瓜仅在墨西哥南部和中美洲发现。番木瓜于17世纪传入我国，最早在1661年的《九江乡志》书中有记载，称之为“万寿果”，说明我国栽培番木瓜至少有300多年历史了。

1992年，由于番木瓜环斑病毒（PRSV）的大流行，番木瓜产业面临崩溃的威胁。转基因番木瓜品种的诞生使番木瓜产业免遭PRSV的毁灭，这是番木瓜生产上的第一次革命性突破，是转基因作物拯救整个产业的一个典型的成功案例。目前番木瓜是我国批准商业化种植的唯一转基因水果作物。

部分研究细节

然而在获得转基因植物的过程中，外源DNA片段是如何整合到核基因组上的？整合过程中植物基因组发生了哪些结构变异？这些结构变异对基因功能造成了哪些影响？

通过全基因组共线性分析，研究者在SunUp品种的5号染色体上发现两个大的结构变异，一个1.6 Mb插入和591.9 Kb的缺失（图1）。研究发现，三个转基因片段均位于该1.6 Mb的插入片段上，并且三个转基因插入片段的6个侧翼序列中有5个侧翼序列来源于核质体基因组片段（NUPTs），它们在转基因过程中经历了结构变异，只有一个序列来源于核线粒体基因组片段（NUMTs）并且未发生结构变异（图1）。对1.6 Mb和591.9 Kb这两个大的结构变异上的基因进行分析，研究者意外的发现几乎所有基因都是叶绿体和线粒体基因组编码基因。通过 SunUp和Sunset品种不同发育阶段的叶和花组织的表达谱分析发现：两个结构变异上的差异表达基因中只有9个基因是单拷贝基因，表明基因枪轰击介导的转基因可引起显著的基因组结构变异，但是对基因功能造成的影响非常小，这为植物基因枪轰击介导的转基因过程对基因组结构和功能的影响提供了直接的证据。

图1. SunUp 基因组中转基因插入的整合位点（a）SunUp和Sunset 5号染色体的共线性比对；（b）SunUp 1.6 Mb的片段插入在Sunset 5号染色体上；（c）三个转基因片段在质粒上的位置与在1.6 插入片段上的位置对比；（d）三个转基因片段的6个侧翼片段在SunUp和Sunset中的比对。

SunUp和Sunset基因组的比较分析进一步发现1.6 Mb插入片段是由77个重排和异位的片段组成，包括3个转基因片段、61个来自Sunset核基因组的片段和13个来自叶绿体和线粒体细胞器基因组的片段。其中 61个核基因组片段包括1个核基因组、18个NUMTs和42个NUPTs片段（图2）。这个结果说明转基因插入位点偏向于插入叶绿体富集区域，具有“偏好性”。通过以上发现，研究人员推测了基因枪介导的外源基因整合到基因组的可能机制：外源 DNA片段整合到富含NUPTs的区域，伴随着基因组中已有的NUPTs、NUMTs和核基因组序列发生多聚化、异位以及重排。由于基因枪穿透细胞引发的损伤反应促使叶绿体和线粒体细胞器片段整合到转基因插入片段所在的多聚化区域，这种机制可能是植物自身应对外界伤害的一种精密的自我保护的调控机制（图3）。

图2. SunUp 5号染色体上的 1.6Mb 插入片段来源分布图

图3. 外源 DNA 整合到核基因组中的模式图

总结

该研究破译了番木瓜转基因品种SunUp与非转基因品种Sunset高质量的基因组图谱，首次揭示了植物基因枪介导的转基因过程对基因组结构和功能的影响，以及番木瓜地理起源和驯化历史。该成果是在植物转基因过程解析方面取得的原创性突破，对深入解密植物转基因过程具有重要参考价值，对推动果树作物的基础研究以及品种改良等具有里程碑式的意义。

世界上最毒蘑菇是如何炼成的？——昆明植物所在毒蘑菇鹅膏环肽毒素合成机制研究中取得重要进展

2022-05-25/0 评论/在科研动态 /通过 zu

近日以Genes and evolutionary fates of the amanitin biosynthesis pathway in poisonous mushrooms为题在国际著名期刊Proceedings of the National Academy of Sciences of the United States of America（PNAS）的遗传学板块全文发表。中国科学院昆明植物研究所罗宏副研究员为该论文的第一作者和共同通讯作者，吕李云娇博士研究生为共同第二作者，法国农业科学院Francis M. Martin院士为论文的共同通讯作者。该研究得到中国科学院B类先导专项（XDB31000000）和国家自然科学基金面上项目（31972477、31772377）的经费支持。希望组提供真菌测序服务。

有毒蘑菇对人类健康常常造成威胁，但同时也是重要药物和功能分子的来源。危害最大的有毒蘑菇当属鹅膏属的某些真菌，绝大部分的致死中毒案例由这一类蘑菇所致。剧毒鹅膏中的毒素为鹅膏环肽，但鹅膏环肽并非仅鹅膏属真菌独有，在亲缘关系很远的环柄菇属和盔孢伞属中，也有能产生这类毒素的真菌。

中国科学院昆明植物研究所的科研人员在研究中发现了两个鹅膏环肽合成新的关键基因（P450-29和FMO1），二者为不同的加氧酶，负责在鹅膏环肽毒素的关键位点（异亮氨酸C-5和脯氨酸C-4等）引入氧原子。若缺少这些氧原子，将导致毒素的活性下降1000倍以上。该结果将已知毒素合成基因从原来的2个增加到了4个，对鹅膏环肽生源合成途径有了更为深入的认识。通过建立目前全球唯一的剧毒鹅膏基因组平台，构建了鹅膏属、盔孢伞属和环柄菇属中13个剧毒物种的基因组数据库，完整解析了鹅膏环肽生源合成途径在蘑菇目中的整体架构，发现在蘑菇目三个不同属中，鹅膏环肽的主要合成基因是相同或相似的，因此鹅膏环肽生源合成途径是同宗同源的。系统发育和遗传学研究证据表明鹅膏、盔孢伞、环柄菇之所以都能产生鹅膏环肽毒素，其根源是基因水平转移。更深入的进化分析表明，基因水平转移发生的年代久远且并非直接发生在这几类蘑菇之间，而是由未知古老真菌物种作为供体分别传递给了这些蘑菇（图）。

研究首次证实，在蘑菇目中，虽然鹅膏、盔孢伞、环柄菇间的亲缘关系较远，但其产生鹅膏环肽毒素的遗传学基础是一致的，均由相似的基因控制。但令人吃惊的是，在进化长河中，上述三大类蘑菇中的毒素合成能力却发生了翻天覆地的变化。在木腐生的盔孢伞属真菌中，仅有1个毒素前体基因且该基因编码α-鹅膏毒肽；在土壤腐生的环柄菇属真菌中，存在MSDIN前体基因家族的轻微扩张，有约10种毒素前体基因；在菌根共生的鹅膏属真菌中，MSDIN前体基因家族存在显著扩张，甚至还产生了新的毒素修饰基因，可将环肽数目再扩大数十倍，因此鹅膏的实际产毒能力是盔孢伞和环柄菇的成千上万倍！

简而言之，虽然鹅膏、盔孢伞、环柄菇都继承了由供体转移来的毒素基因，但可能受到不同生理和生态压力的影响，分道扬镳，各自朝不同的方向进化，最终形成了三种迥异的命运（图）。鹅膏是其中的佼佼者，其鹅膏环肽生源合成途径产生了众多创新，产毒能力提升了千倍万倍，炼成了当之无愧的蘑菇毒王！

鹅膏、盔孢伞、环柄菇中环肽毒素合成基因分布及代谢途径进化示意图

文章链接：http://www.kib.cas.cn/xwzx/ttxw/202205/t20220510_6445695.html

项目文章|三代测序（TGS）技术助力水稻泛基因组研究再攀高峰

2022-05-05/0 评论/在科研动态 /通过 zu

基因组研究热点+前沿测序技术=基因组学顶级期刊！

泛基因组是一个群体中所有基因组的集合，在众多领域（尤其作物科学领域）的基因组研究中显示出巨大的潜力，泛基因组的构建和基因存在-缺失变异（PAVs）分析是基因组研究的新热点。目前基于二代测序技术（SGS），初步构建了主要作物（如水稻、玉米、大豆）的泛基因组，其中水稻泛基因组大小比水稻参考基因组（NipRG）日本晴要大近270 Mb。然而，使用二代测序数据构建的泛基因组仍存在基因组不完整和基因注释不准确的缺点。这些问题在很大程度上可以通过前沿测序技术——长读长的三代测序解决。

近日，上海交通大学生命科学技术学院韦朝春团队和中国农业科学院作物科学研究所合作完成基于三代测序数据的水稻泛基因组构建及分析，相关成果论文 “Long-read sequencing of 111 rice genomes reveals significantly larger pan-genomes”在基因组学顶级期刊《Genome Research》发表。希望组为本研究提供了二代和三代测序服务，自主研发的NextDenovo软件被应用于项目的关键环节——水稻基因组组装。

研究概要

研究挑选了111个代表性水稻品种，结合二代和三代测序技术进行全基因组测序，获得了连续性和完整性很高的个体基因组，并在此基础上构建了高质量水稻泛基因组，同时填补了9个代表性水稻群体的高质量参考基因组，其中包括5个gapless水稻基因组。

研究结果

1. 水稻泛基因组构建及特征分析

结合111个水稻基因组构建的高质量泛基因组有879Mb的非冗余新序列（序列相似度<90%，长度> 500bp）。新序列中转座因子占一半以上，其中逆转录因子52.71%，DNA转座子16.05%，名为Gypsy的长末端重复（LTRs）逆转录元件占比达47.83%。新序列分布于每条染色体上，Chr1新序列数量最多，Chr11新序列长度最长。除了 Chr4 和 Chr11 的端粒附近的两个峰以外，含高密度新序列的基因组区域倾向于位于着丝粒附近。另外，在所有水稻基因组中，野生稻包含的重复序列 LTRs 明显多于栽培稻。泛基因组变异分析的结果显示缺失和易位为主要的结构变异（structural variations，SVs）模式。

在水稻泛基因组中一共发现19319个新编码基因（分布于2132个新基因家族），其中89.5%包含至少一个功能区域。进一步统计分析，在所有基因中65.7%为核心基因，14.4%为候选核心基因（存在于90%的样本），19.6%为非核心基因家族基因（少于90%但不仅在一个样本中存在），0.2%为特有基因。

图一水稻泛基因组的基因组特征

2.测序技术及品种数量对构建泛基因组的影响

后续分析中分别构建了相同品种水稻的SGS和TGS泛基因组及品种数量不等的TGS泛基因组，比较分析结果显示：同样的测序技术，加入品种数量不同时，品种数量越多得到新序列越多；品种数量相同时，基于TGS技术构建的泛基因组比基于SGS技术构建的泛基因组得到的新序列多。

进一步对同品种SGS和TGS构建的泛基因进行PAVs分析，将全部基因分为TGS偏好、SGS偏好及无偏好三组。对比分析发现TGS偏好基因的GC含量更高，CDS长度更短；多数SGS偏好基因CDS区与重复元件重叠，与DNA转座子和LTR相关；具有较高LINEs和RC/Helitron比例的基因在TGS中比SGS中更频繁。这些结果表明，SGS数据在检测基因PAVs时往往会得到更高的假阳性率，尤其是对于包含重复序列的基因。

图二 SGS和TGS基因家族比较分析

3. 栽培稻表型关联分析

通过栽培稻基因PAV和表型关联分析，检测到14,471个显著的基因PAVs和表型的关联（8130个基因和9个表型）。例如LOC_Os01g27930（一种反转录转座子蛋白）的缺失与籽粒长宽比增加相关，而它的存在也与籽粒宽度增加相关；SD-1的缺失会导致植株高度的降低。这些结果表明，基因PAVs对水稻表型变异可能有重要贡献。

小结

本研究结合SGS和TGS数据构建了水稻高质量泛基因组，全面解析水稻基因组相关特征。研究结果将全面推动水稻的功能基因组学研究，为水稻品种改良提供重要参考资源。

项目文章 | 希望组异源四倍体组装案例——象草

2022-05-05/0 评论/在科研动态 /通过 zu

象草超“能”，原因几何？

%、13%的木素，是生产高生物量、多种素素、草料和多种植物的重要植物。的炭原料，约45吨/公顷。理想下可收获3-4次。拥有如此巨大的量，但其本身却是天然生物基因的四倍体基因。的不同来源，却是四体基因。基因组组合，而不同的不同源头四种资源实现也分配。

近期，齐鲁源、齐鲁涛生物大学（山东省鲁涛生物大学）志课题组以及夏大学热带科学决策学院发表海南课题组于分子生态资源杂志上题为“染色体组长组合提供了不同的对科学院课题组”四倍体上确定了草草基础的鉴定和大象草的生物质（生物质积分）。研究和进化、基因家族分析、在项目中提供了新的视觉检测技术组合图谱、ONT超象草技术、ONT超象素基因组图技术、PacBio纳米技术、PacBio全长药物组合技术、Hi-D C技术以及下一个诺组件服务。

01 研究思路

02 研究结果

1. 源四倍体象草基因组的从头组件及注释

通过K-mer分析和流式细胞仪，象草的基因组排列预测为2.0 Gb和2.13 Gb。另外，通过K-mer分析的综合比例为1.3％。最终为2.22 Gb的组成序列当中，N50组合为 25 Mb8con。4N5M 组合 25 Mb。去 Gbtig 获得 N.46 组合后，con2.2.4 组合 N587 组合谱。90 Mb。10 倍的 Bioscaffold 以及 2.0.0 辅助的组合组合，通过了 N50 的基因组列表。。加载系数为 6.88% 的 N50146.844，BUSCO 97.8% M-9% 的评估为 C 77,19 帮助预测的一个。

图1 异源象草基因组圈图

2.异源四倍体象草的进化分析

禾本科植物和树种基因有不同的来源和类似的基因系统（图2）。三。禾本科植物的组合中线发生融合22马，植物形成组中线（图2b）。 2的编码基因’B亚的重建和染色体家族的后裔，1条染色体家族的共同支持，母体之间有2个基因组之间的关系。一个“基因组基因组整合”的源体组合（图2c和）似乎出现了3次多倍组化事件。中，一个亚组11492显着发现，1719个组，而象草B亚0031这些基因家族有2个发现有1个下来）。在进化过程中保留家族链（图）基因家族的家族基因组丰富的或能力亚基具有重要的分析能力。以及过氧化物的家族基因。

图2 狼蛛相关的尾草进化属中象草

3. 象草的生物量特性相关分析

在A’和B亚组中（图3b）的两个结果中，组和B亚组中的两个和三个重复分别出现的结果，A’B亚组的基因组序列相同。积分。

图3 象草的合成基因表达和速热图

136个基因的基因发现的木质素合成相关，个数源可能是由于对四象体形成了5亚种的加成。（图4b，通过WGCNA分析）鉴定了664个木质素合成的有加。

图4 象草和木素热合成的基因表达图

03 小结

本文利用三代长基因组基因技术以及辅助组件技术，象草生物量巨大的潜在成分组，为研究象草组的提供了组合、组合、组合、组合、多种组合化的重要和进化也为等方面提供了基础，其他开发利用的资源。

项目文章 | Nature Plants封面-苏铁基因组发布

2022-05-05/0 评论/在科研动态 /通过 zu

种子植物包括裸子植物（gymnosperms）和被子植物（angiosperms），裸子植物分为四大类，即苏铁类（cycads）、银杏类（Ginkgo）、松柏类（conifers）和买麻藤类（gnetophytes）。裸子植物基因组较大，重复序列含量高，结构复杂，迄今为止，现存最原始种子植物苏铁分支尚缺少完整的基因组图谱。

2022年4月18日，由22个机构65位科学家联合在Nature Plants发表了题为“The Cycas genome and the early evolution of seed plants”的封面文章，报道了现存最原始种子植物苏铁参考基因组，填补了种子植物基因组研究的空白。苏铁基因组的发布，代表着种子植物基因组演化研究中的最后一块拼图完成，为后续比较基因组学的开展奠定了基础。希望组参与了本研究项目中攀枝花苏铁的测序、组装及初步注释服务。

苏铁基因组测序材料选取苏铁类的基部类群、也是整个苏铁类分布纬度最北的种类攀枝花苏铁（Cycas panzhihuaensis）。基于长片段测序与MGI-SEQ测序，苏铁基因组组装大小为10.5 Gb，contig N50为12Mb，结合Hi-C数据，挂载为11条染色体。其中共注释32,353个蛋白编码基因，BUSCO评估完整度为91.6%，是目前裸子植物中最高质量的大基因组图谱。

裸子植物具有4大分支，1118种，关于裸子植物内部大分支之间的系统演化关系一直有不同的学术观点。基于15个维管植物基因组3282个直系同源低拷贝核基因、90个种子植物转录组1569个直系同源基因、72种维管植物叶绿体和线粒体基因组数据的系统分析结果表明，苏铁单独（线粒体数据）、或和银杏一起（核基因、叶绿体数据）构成其它所有裸子植物的姐妹群。

基因组加倍是植物演化适应的重要驱动力，关于裸子植物共同祖先是否经历了全基因组加倍事件一直存在争议。研究者采用对重复基因同义替代分析和系统发育基因组学方法，并使用基因组内共线性区域进行比较验证，发现现存裸子植物的最近共同祖先可能经历了一次古老的全基因组复制事件（命名为ω，图一a）。伴随着种子植物起源，许多关键创新性状如种子发育、花粉、次生生长相关的基因家族均发生了创新或扩张。在种子植物的祖先节点共发现663个新获得的基因家族和368个扩张的基因家族。其中，106个新获得和55个显著扩张的基因家族与种子生理发育有关，包括调控胚胎早期发育、种子休眠和萌发、种子能量和营养代谢，种皮形成以及种子的免疫和应激反应等（图一b）。

图一、a) 基于系统发育关系推断种子植物的全基因组加倍事件；b) 种子植物的基因家族创新和扩张。

最显著扩张的种子生理相关家族是cupin蛋白家族。攀枝花苏铁编码一类新的vicilin-like贮藏蛋白 vicilin-like antimicrobial peptides（v-AMP），在基因组中呈串联基因阵列分布，多在授粉胚珠后期和受精胚珠时期表达，而后逐渐降低，暗示v-AMP基因在种子发育过程特定时期发挥重要作用。LAFL家族（LEC1、ABI3、LEC2和FUS3）是种子发育核心调控基因，苏铁等裸子植物的FUS3和LEC2基因可构成一个新的进化枝，定义为FUS3 / LEC2-like类型，与被子植物的FUS3和LEC2形成姐妹分支关系。FUS3 / LEC2-like类别是裸子植物特有的。在攀枝花苏铁授粉后，其会表现出明显的表达，表明可能在裸子植物胚胎发生早期发挥特定作用。

苏铁类起源于古生代二叠纪早期，距今已有至少2亿7千万年历史。在经历大量灭绝以后，现代苏铁多是近期几次辐射演化的后代。如今苏铁具有2科10属。研究者基于现存苏铁目339种植物的转录组数据，重建了苏铁类自身的系统发育关系。分子钟分析表明，现存苏铁的多样化同步发生于距今1100至2000万年之间，是中新世以来气候剧烈变化的结果（图二）。

图二、苏铁目系统发育树支持现存苏铁是辐射演化的结果

雌雄性别分化是一种进化性状。裸子植物已报道的1118个物种中，65%的种类都是雌雄异株，而在被子植物中雌雄异株只占到6%。苏铁类植物均为雌雄异株（图三），由于其生长缓慢，以往只能在开花时才能判断性别，而成株树龄多在十年以上以及在适宜的环境才会开花。研究苏铁性别决定的分子机制，可以在植株进入花期前就确定性别，对于苏铁类植物的就地和迁地保护和园林培育具有重要意义。苏铁的性别控制基因一直困扰科学界。研究者通过对源于四川攀枝花苏铁国家级保护区62株雌雄苏铁群体测序，表达差异分析，和雄性Y染色体的组装，找到雌雄表达差异最大的一个基因来自雄株的Y染色体，该基因编码一个MADS-box转录因子，推测其调控雌雄苏铁的性器官发育，揭示了苏铁性别决定的遗传机制。该转录因子的同源基因也仅能在雄株基因组中检测到，说明了该性别决定机制在苏铁类植物中的保守性。

图三、a) 攀枝花苏铁；b) 攀枝花苏铁雄株和雌株的孢子体。

早期维管植物的精子都是有鞭毛，可以游动的。随着演化，鞭毛丢失。在现生种子植物中仅苏铁和银杏保留精子具鞭毛的特征。研究人员发现，苏铁和银杏均保留了大量鞭毛组装所需基因，但与苏铁相比，银杏中RSP类基因有一定的丢失（RSP2, RSP3, RSP 9, 和RSP11等）。此外，与鞭毛行使功能密切相关的外周致密纤维合成基因（ODFs），只在苏铁和银杏基因组中存在，在其它种子植物中则全部丢失。进一步证实了苏铁在种子植物演化中古老的地位。

水平基因转移泛指不同物种间的基因交流，在陆生植物适应性进化过程中起到推动作用。研究者在攀枝花苏铁基因组中发现一种细胞毒素蛋白基因（fitD），这种基因起源于细菌，通过水平基因转移的方式转移到真菌和苏铁中（图四a）。基于苏铁类339个物种转录组数据，研究人员发现该毒素蛋白只在苏铁属物种中存在。同时，fitD基因在种子和根部高表达，这可能也是苏铁种子和根部具有毒性的原因之一。基于基因重组技术，在大肠杆菌表达的毒素蛋白产物对小菜蛾和棉铃虫有显著致死性（图四b-f），显示出毒素蛋白具有一定的农业应用前景。

图四、a)苏铁水平转移毒蛋白基因的演化历史。b-f) 苏铁毒蛋白基因表达，及对昆虫毒性实验。

该研究由深圳华大生命科学研究院、深圳市仙湖植物园、中国科学院昆明植物研究所、兰州大学、中国环境科学研究院、河南大学和南京林业大学等22个机构65位科学家联合完成。该论文第一作者为深圳华大生命科学研究院刘阳、王思博、李林洲、杨婷、魏桐，深圳仙湖植物园董珊珊，兰州大学武生聃等为共同第一作者，分别在基因组不同的领域贡献了自己的专业力量。深圳仙湖植物园张寿洲，深圳华大生命科学研究院刘欢，中科院昆明植物所龚洵，美国佛罗里达大学Douglas E. Soltis，比利时根特大学Yves Van de Peer为文章共同通讯作者。该项目得到深圳市城市管理和执法局科研专项、国家重点研发计划、生态环境部生物多样性调查与评估等基金支持。

项目文章 | 华中农大联合深圳基因所组装康乃馨染色体级别基因组并结合多组学数据解析花色、花型和花香等重要性状调控密码

2022-04-02/0 评论/在科研动态 /通过 zu

康乃馨（Dianthus caryophyllus）是石竹科石竹属多年生植物。因其花色绚丽，花型独特，香气馥郁，深受世界各地人民的喜爱，被称作世界‘四大切花’之一，具有极高的观赏价值和经济价值。

2022年3月5日，华中农业大学园艺林学学院傅小鹏研究团队，联合中国农业科学院农业基因组研究所（简称‘基因组所’）武志强研究团队，在国际著名学术期刊Plant Biotechnology Journal上发表了题为“Integrated multi-omic data and analyses reveal the pathways underlying key ornamental traits in carnation flowers”的研究论文。希望组在本文章中提供了基因组测序及Hi-C测序服务！

该研究首次组装了康乃馨染色体级别的基因组，并结合比较基因组，转录组，代谢组等方法，系统地研究了康乃馨基因组的进化，并对康乃馨的花色，花型和花香等重要观赏性状的分子机理进行解析，鉴定了参与这些性状形成的关键基因。本研究的开展为定向改良康乃馨的观赏性状，培育康乃馨新品种奠定了基础。

研究团队利用第三代ONT、二代Illumina和HIC技术，对康乃馨栽培品种‘斯嘉丽’（ D. caryophyllus, cultivar ‘Scarlet Queen’）进行了全基因组测序和组装。康乃馨（2n=30）的基因全长为636.30 Mb，重复序列占70.62%，共注释到43,925个基因，Contig N50 和Scaffold N50分别为14.67 Mb和38.55M。研究发现康乃馨与藜科在~64.07 MYA发生了分化，并经历了一次近期的WGT事件，这次加倍事件促进了康乃馨特殊香气丁香酚合成相关的基因的扩张。

图1.康乃馨基因组的组装与进化

基于本基因组，对康乃馨红边花瓣进行代谢组分析，发现天竺葵素的积累促使花瓣红边的成色，叶黄素和多个类黄酮物质的共同积累，促使花瓣基部成黄色；结合转录组分析，筛选到几个MYBs, bHLHs 和WRKY44等基因共同作用于ANS调控康乃馨复色的形成。同时，利用GC_MS以及转录组，对香石竹丁香酚在不同时期花瓣的积累过程进行解析，发现EGS基因存在外显子上的结构变异，其提前终止可能是康乃馨丁香酚丢失的原因。另外，研究发现康乃馨汇总A、C类基因的异位表达可能是影响重瓣型康乃馨形成的重要因素。

图2. 康乃馨花瓣花边颜色的形成

图3.潜在的康乃馨中丁香酚合成通路

图4.康乃馨重瓣花形成的遗传机制

本研究为开展康乃馨重要观赏性状的调控和遗传改良提供了宝贵的数据信息和坚实的理论基础，对推动康乃馨分子育种育种具有里程碑式的意义。

华中农业大学博士张晓妮（现为基因组所武志强组博士后）为论文第一作者，华中农业大学傅小鹏教授和基因组所武志强研究员为共同通讯作者。该研究是在包满珠教授和BENDAHMANE教授全程指导和帮助下完成的。同时，该研究得到了国家自然基金、国家青年科学基金、深圳市科创委以及基因组所启动基金等的支持。

原文链接：https://onlinelibrary.wiley.com/toc/14677652/0/ja

文章来源：植物生物技术Pbj公众号

进展迅速丨高质量人类二倍体基因组组装策略来临

2022-04-02/0 评论/在科研动态 /通过 zu

自T2T联盟于2021年5月在BioRixv预印版上发表了首个人类基因组完成图及相关文章之后，近日人类泛参考基因组联盟紧跟步伐在BioRixv预印版上发布了题为“Automated assembly of high-quality diploid human reference genomes”的文章。

样本来源

目前常用的人类参考基因组GRCh38，是科研团队花费20多年的努力而完成的高质量的人类基因组。该基因组极大程度上推进了生命科学相关领域的发展。但是它仍然存在着许多gaps（gap数已从原来的150,000个降低至了现今的995个）和错误。因为GRCh38是20位匿名志愿者的混合样本，所以并不代表单个个体的人类基因组。2021年，T2T联盟利用最新的长读长技术与自主研发的生信算法组装出了高质量端粒到端粒的参考基因组CHM13（首个人类基因组完成图）。由于它来源于一个带有重复基因的葡萄胎细胞系，因而几乎是纯合基因组。在组装难度上，纯合基因组比二倍体基因组组装相对较低。为了解决这些原有人类基因组序列的局限性，研究团队成立了人类泛参考基因组联盟（Human Pangenome Reference Consortium，HPRC）。该联盟旨在整合高质量、低成本、二倍体人类基因组，用以构建代表人类遗传多样性的人类泛参考基因组。

人类泛参考基因组联盟使用的是二倍体基因组，组装难度会更高。在样本选择上，选择了广泛使用的HG002的永生化淋巴细胞GM24385，用于ONT测序和Bionano光学图谱测序。二代illumina测序和PB测序数据使用的样本是由大量GM24385细胞而来的NIST标准样本8391 DNA样本。父系样本HG003和母系样本HG004分别来源于公开的GM24149和GM14143细胞系，并通过二代illumina测序对NIST标准样本8392（含HG002、HG003和HG004）的DNA进行测序。

组装策略及结果

本文是以HPRC的名义发表的首篇文章，该文章确定了当前基因组测序和automated组装方法的组合可以在人工干预最少的情况下产生最完整、最准确和最经济的二倍体基因组组装。在组装过程中，团队选择了最优的高精度长读长reads和父母本及子代数据进行单倍体分型组装（trio-based assembles）的方法。第一个高质量二倍体人类参考基因组（XY型），平均每条染色体仅有~4个Gaps（范围在0-12），大多数染色体长度和CHM13相比仅有±1%的差异。将近四分之一的蛋白编码基因在单倍型间存在同义氨基酸变化，而其中着丝粒区域变异的密集度最高。该研究为构建涵盖从单个核苷酸到大型结构重排的所有遗传变异的人类泛参考基因组奠定了基础。

测序及组装方法的测试总结

HPRC Trio pipeline v1.0组装流程图

小结

使用目前已有的方法和技术，研究者们可将二倍体HG002基因组的组装达到整体完整度的98.5%。利用这些方法组装不同的二倍体人类基因组，构建人类泛参考基因组，将会更全面地了解人类遗传多样性，提高精准医疗的准确性，并对生物基因组学有更深入的了解。

美国学者Erich D. Jarvis为论文的第一作者，中南大学王建新团队、中山医眼科肖传乐团队、中国农科院阮珏团队、昆明动物所张国捷团队以及华大基因杨琛涛团队均参与该项项目研究。

希望组一直致力于推动各个物种基因组完成图的组装及应用。近期还为动植物基因组完成组量身定制包含测序及组装在内的全套解决方案，敬请期待！

原文链接：https://doi.org/10.1101/2022.03.06.483034

项目文章 | 超长测序+NextDenovo助力盾叶薯蓣高质量基因组解析与薯蓣皂苷生物合成进化

项目文章| 1028Gb超长测序+NextDenovo助力六倍体栽培燕麦的起源与进化研究

项目文章 | 超长测序 + Nextdenovo助力四个水稻基因组T2T组装

项目文章 |《Nature Genetics》番木瓜基因组研究

世界上最毒蘑菇是如何炼成的？——昆明植物所在毒蘑菇鹅膏环肽毒素合成机制研究中取得重要进展

项目文章|三代测序（TGS）技术助力水稻泛基因组研究再攀高峰

项目文章 | 希望组异源四倍体组装案例——象草

项目文章 | Nature Plants封面-苏铁基因组发布

项目文章 | 华中农大联合深圳基因所组装康乃馨染色体级别基因组并结合多组学数据解析花色、花型和花香等重要性状调控密码

进展迅速丨高质量人类二倍体基因组组装策略来临

联系我们

关于我们

官方微信公众号