技术突破丨希望组“10X+ONT-Q20+”长读长单细胞测序实测通过!!!

2021年ONT在科研团体大会(Nanopore Community Meeting)上发布了”Q20+”试剂产品。这是利用包含最新“Q20+”化学试剂并支持“双链”(Duplex)测序的新试剂盒LSK112和最新芯片R10.4相结合的测序技术,可以实现>99%的原始reads(单链)准确度,或约Q30的双链(Duplex)准确度。

希望组(GrandOmics)作为中国最早开展ONT测序服务的公司之一,一直走在技术应用的前沿,率先将高通量单细胞分选平台10X和ONT最新技术进行组合创新,给火热的单细胞测序领域,提供了全新的技术解决方案。

测试背景

2020年8月于Nature Communication杂志发表的题为“High throughput, error corrected Nanopore single cell transcriptome sequencing”的研究论文,将单细胞与Nanopore全长转录组进行了技术整合,使得在单细胞水平上检测差异RNA剪接和RNA编辑成为可能。利用Illumina对10X Genomics文库进行短读长测序,为每个基因和基因组区域定义相关的Cell Barcode,随后为每个细胞、基因或基因组区域定义相关的UMIs组合。进而利用上述信息指导Cell Barcode和UMI分配到已比对至基因组上的Nanopore reads,通过对相同UMI的reads进行分组,校正和拆分Nanopore测序reads,用于开展下游的isform分析和RNA编辑。考虑到ONT-Q20+测序即将成为行业新的长读长测序技术标准,我们迫不及待的进行了新的尝试。

测试方式

10X单细胞平台获得的全长cDNA分成两份,一份进行常规二代测序,另外一份进ONT Q20+R10.4测序,利用二代测序数据的UMI指导进行 ONT测序的数据拆分。

测试样本

某人类PBMC样本,采用最新GPU进行Super高精准度Basecalling。尽管大大提高了计算消耗,但预期可以得到最佳的单碱基质量。

测试结果

一、下机数据统计

下机数据质控统计表

Reads长度分布图

单张测序芯片的产量为36.7Gb,pass产量为29Gb。尽管产量仍有提升空间,但通过芯片及算法的升级,basecalling的准确度有了大幅度的提升,reads平均分可达到15.98,最终获得了20 Mb的reads进行下游分析,和其他长读长平台所产生的reads数相比,有着明显的产量优势。该芯片样本为单链测序样本,相信在”Duplex”的模式下,样本的测序准确度会有更进一步的提升。

2. 与参考基因组比对identity

左图Q20+R10.4的比对identity分布图,右图为LSK110 R9芯片的比对identity分布图

从图中可以发现,同个样本不同的测序试剂和芯片,对于最终比对identity的准确性有着显著的差异。LSK110 R9 base-calling fast模式的比对identity中位值在87.1%,Q20+R10.4的比对identity中位值达到了97.9%。整体数据的准确度有了明显的提升。

3.数据分解率

随着数据准确性的不断提高,利用二代UMI数据指导拆分三代全长转录组数据的比例也会有相应的提升空间,内部数据表明二代UMI数据指导拆分三代全长转录组数据的拆分率可达70%,远远高于Nature Communication文章里50%的拆分率。相信在“Duplex”模式下的数据表现会有更加亮眼。敬请关注希望组后续的相关报道!

当10x单细胞样本遇上Oxford Nanopore Q20试剂及R10.4芯片,有效提升UMI的数据拆分率,拥有更多有效数据进行下游分析。尽管“Q20+”目前处于试测阶段,但相信未来在基因组、转录组上的应用场景会不断增加。希望组早在2020年年底已经推出了利用纳米孔平台进行单细胞全长转录组的产品SCAN-seq。现在有了Q20试剂的加持,拓宽了单细胞全长转录组的应用场景和需求,可以为广大科研工作者提供更好、更优质、更前沿的技术!

项目文章丨PNAS封面!李家堂团队等揭示“飞蛙”滑翔的遗传机制

近日,中国科学院成都生物研究所李家堂研究团队等以云南西双版纳地区的“飞蛙”——黑蹼树蛙为研究对象,通过多维度研究手段,阐明了其攀爬和滑翔行为相关表型的遗传机制。相关研究在《美国科学院院刊》以封面论文形式发表。希望组在本研究中提供了三代测序组装、注释以及Hi-C测序、挂载服务。

动物复杂性状是动物长期适应演化的结果,是动物多样性形成的重要基础。自然界物种采取各种各样的进化策略以适应不同的栖息地,如高原、海洋、荒漠等。部分类群通过演化出了特殊的表型以适应树栖生活。树栖生活拓展了这些物种对垂直空间资源的利用,有助于它们躲避天敌,获取丰富的食物资源等。但森林环境复杂的立体结构也对动物的运动能力提出了严苛的要求。

在白垩纪末期大规模物种灭绝事件后,无尾目多个科的物种独立演化出了攀爬和滑翔的相关表型,并成功拓殖树栖生态位,黑蹼树蛙就是其中的代表性物种。黑蹼树蛙隶属于树蛙科,常年生活在热带雨林树冠层,是典型的树栖蛙类。据报道,其最高栖息高度达57米,为目前树栖蛙类停留高度的最高记录。黑蹼树蛙具有强大的滑翔能力,因此又被称为“飞蛙”,为揭开两栖动物树栖适应之谜提供了良好的动物模型。

 黑蹼树蛙,饶涛绘

近日,中国科学院成都生物研究所李家堂研究团队等以云南西双版纳地区的“飞蛙”——黑蹼树蛙为研究对象,通过多维度研究手段,阐明了与攀爬和滑翔行为相关表型的遗传机制。

研究团队选择了蹼发达的黑蹼树蛙(满蹼)和宝兴树蛙(微蹼)开展行为学实验。研究人员分别设置了1,1.5和2米的高台,让两种树蛙分别落下并记录运动轨迹。

结果发现
黑蹼树蛙在下降过程中会尽力撑开四肢,依靠满蹼维持空气动力学平衡,使其身体与水平面夹角始终小于宝兴树蛙。而宝兴树蛙则更像是在“跳楼”。这一结果提示树蛙的蹼在滑翔过程中起到重要作用,是支撑滑翔行为的重要性状。

两种树蛙形态学比较与行为学实验

两种树蛙蝌蚪发育时期的肢体形态学比较提示两者之间存在不同的发育模式。以两种树蛙高质量基因组为基础,结合蝌蚪四肢发育过程中的转录组数据,通过时序基因共表达网络分析,发现黑蹼树蛙蝌蚪肢体在发育阶段特异共表达一系列与Wnt信号通路和血管重构相关的基因。这种发育时期特异表达模式可能通过参与指和指间区域生长速率的调控对蹼足的形成起到关键作用。

两种树蛙蝌蚪肢体发育过程形态学比较与时序基因共表达网络分析

树蛙中调控角蛋白和细胞骨架形成的PPL基因受到正选择,且存在树蛙属内保守的氨基酸替换,这可能有助于树蛙攀爬相关性状——吸盘的形成。壁虎的刚毛主要由β角蛋白扩张形成,而树蛙指/趾尖吸盘的主要结构蛋白为α角蛋白,而α角蛋白同样是哺乳动物和人类毛发纤维最主要的成分之一。

“这些祖先角蛋白可能在早期四足动物需要皮肤强化的区域中表达,而随后分化为支持两栖动物和哺乳动物不同的适应性结构”。

本研究通过前期大量的野外观察,整合形态学、行为学和组学等学科研究手段,系统解析了“飞蛙”滑翔的遗传机制,为人类认识动物有趣行为提供新的视角,对动物特殊功能的仿生研究及人类并指症等相关疾病的防治有重要基础科学价值。

该研究成果以“Genomic adaptations for arboreal locomotion in Asian flying treefrogs”为题在《美国科学院院刊》以封面论文形式发表(点击左下角阅读原文)。本研究得到中国科学院B类先导科技专项、国家自然科学基金等项目的资助。

项目文章 | 中-非中心科研团队“百岁兰”基因组研究成果在Nature Communications上发表

背景资料
百岁兰(Welwitschia mirabilis)又名千岁兰,是买麻藤类单种科百岁兰科孑遗植物,系裸子植物中唯一的草状木本,是一种十分罕见的植物。化石记录百岁兰曾经广泛分布于巴西、葡萄牙等地。随着大陆板块分裂,气候骤变,自然居群幸存于如今的安哥拉与纳米比亚沙漠(纳米比亚国花)。是《濒危野生动植物种国际贸易公约》(CITES)附录Ⅱ保护植物,被国际植物学会列为世界八大珍稀植物之一。百岁兰一生只有两片叶子,持续生长不脱落,叶子寿命为植物界最长,其个体在原产地可存活达3000年之久,故此得名。
自2017年开始,在中国科学院中-非联合研究中心的组织下,中国科学院武汉植物园王青锋研究员团队、深圳中科院仙湖植物园万涛研究员团队以及纳米比亚Gobabeb研究中心、英国Kew皇家植物园、中国科学院植物研究所、英国伦敦玛丽女王大学、比利时根特大学等十余个合作单位的科学家联合启动了百岁兰基因组与适应性进化机制的研究工作。经过连续三年多次的野外观察和取样,采用第三代测序技术和Hi-C技术辅助组装注释获得了百岁兰6.8G的基因组全长序列,Scaffold N50达295.50 Mbp, 93.65%的序列锚定到了21条染色体上,结合RNA-seq、Bisulphite-seq、sRNA-seq、核磁共振、激素测定等分析,对百岁兰的演化历史和生态适应性进行了研究。希望组为本项目提供了基因组测序、组装、注释和标准分析服务。

图1,百岁兰形态、生境及其分布

研究发现,百岁兰物种分化产生之后约8千6百万年发生了一次独立的全基因组加倍(WGD),基因组在近1-2个百万年内经历了剧烈的转座子爆发,但高频的非同源重组抵消了大部分扩增的转座子序列。上述变化发生的时间和百岁兰所处纳米比亚沙漠的形成历史(约至少八千万年前形成的地球上最古老沙漠)具有很强的关联性。

图2. 百岁兰基因组演化动态和历史

通过对百岁兰原始分生组织和新老叶段的甲基化测序和比较,发现百岁兰基因组整体呈现极端重度甲基化,并通过CHH位点甲基化动态差异来特异性调节沉默转座子,以维持分生组织细胞基因组完整性,避免DNA的有害突变。有意思的是,重度的甲基化似乎加速了百岁兰基因组脱氨基的速率,使得其G-C含量异常低。在漫长的极端干旱和贫营养的条件下,百岁兰基因组演化朝着小且‘低能耗’的方向演化。

图3\4. 百岁兰甲基化图谱,重度甲基化百岁兰基因组脱氨基导致的低GC

通过与其他代表性陆地植物的比较分析,相关抗性基因(HSP,LRR,WRKY,bHLH等)在百岁兰中发生了明显扩增,涉及细胞稳态、细胞生长速率、DA修复的诸多转录因子的表达式样,尤其是调控植物分生组织分生能力的ARPKNOX1共表达模式与其他种子植物区别明显,使得百岁兰能持续不断的获得新分化的叶片细胞,保证两片叶子的持续伸长。研究还发现脱落酸ABA合成限速酶NCED4在百岁兰不同组织差异表达可能是由启动子区CHH差异甲基化调控引起的。

图5/6/7. 百岁兰特性扩张基因家族及新老叶段基因家族的差异表达

相关研究表明,百岁兰的基因组演化与其近1亿年以来经历的地质环境剧变和持续高温干旱影响有较强的关联性,趋向小且‘低能耗’。重度甲基化和CHH位点调节,有效的保证了百岁兰基因组在世代交替过程中的完整性;调控初生分生组织发育转录因子表达模式的变化很可能影响了该物种现今的形态建成式样,特异性降低的细胞生长速率、细胞内稳态建成使得百岁兰的两片叶子缓慢而健康的生长,而抗热、高度木质化的叶片进一步助其适应极度干旱的环境。
相关研究成果以The Welwitschia genome reveals unique biology underpinning extreme longevity in deserts为题,于2021年7月12日发表在Nature Communications上。研究工作得到中国科学院中-非联合研究中心研究专项、国家自然科学基金等的支持。

完成图里程碑丨首个完整人类基因序列发布

基因组完成图一直以来都是组学研究领域的前沿,近期发表的人类X染色体完成图8号染色图完成图极大地推动了人们对基因组完成图的认知及研究。近日,T2T联盟(端粒到端粒联盟小组)研究人员几乎同时在bioRxiv杂志上公开3篇文章,宣布完成首个无gap的人类基因组完成图,并首次解锁了基因组完成图级别的结构变异和表观遗传。这些研究成果将会成为人类测序史上里程碑事件!下面跟着组学君一起学习下这3篇文章吧。

The complete sequence of a human genome
2001年,Celera Genomics和国际人类基因组测序联盟公布了人类基因组草图,自此掀起了基因组学的一场革命。这些草图和随后更新的基因组序列,尽管有效地覆盖了基因组全染色质部分,但异染色质区域以及许多复杂区域仍然未能测通或者存在错误序列。为了解决这悬而未决的8%基因组部分,T2T联盟(染色体端粒到端粒联盟)开始了相关工作,完成了首个真正完整人类基因组测序,共计30.55亿bp的人类基因组序列。这是自人类参考基因组首次发表以来至今,最大的飞跃。新的T2T-CHM13参考基因组包括了所有22条常染色体和x染色体的无GAP组装,纠正了许多错误序列,并引入了近2亿bp(即200Mb)的新序列,其中包含有2,226个同源基因拷贝序列以及115个蛋白质编码区域。最新完成的区域还包含所有着丝粒卫星阵列(centromeric satellite arrays)以及所有5个端粒染色体(acrocentric chromosomes)的短臂区域。首次解锁的这些基因组复杂区域,以便于进行结构变异以及功能相关的研究。

在过去6年的时间里,研究者们采用了多种技术对CHM13进行测序,包括了30x PacBio CCS(HiFi)测序,120x Oxford Nanopore ultra-long测序,100x Illumina PCR-Free测序,70x Hi-C测序,以及Bionano光学图谱和Strand-seq。为了更好的利用这些数据集,研究者们开发了新的组装、校正以及验证的方法。和T2T联盟组装出的第一个X染色体(依赖于ONT测序reads搭建骨干,之后利用其它技术进行校正)相比,研究者们采用了新的组装策略,综合利用HiFi reads的准确性和读取长度,完成了高度重复着丝粒卫星阵列以及密切相关的重复片段的组装。

T2T-CHM13人类完整基因组序列与GRCh38的比较

T2T-CHM13v1.1组装包括了22条人类常染色体和x染色体的端粒到端粒的无GAP组装,由3,054,815,472bp的核DNA16,569bp的线粒体基因组组成(CHM13没有Y染色体)。和GRCh38相比,这个完整组装的参考序列增加或修正了238Mb的序列。该序列的大部分是由着丝粒卫星序列(180Mb)、重复片段(68Mb)和rDNAs10Mb)组成,表明在着丝粒和重复片段确定区域之间存在重叠。在这些区域中有182Mb的序列是首次发现,因此对CHM13组装而言是全新区域。最终发现T2T-CHM13v1.1组装版本显著增加了人类基因组中的已知基因数目和重复序列数量。T2T-CHM13共注释出63,494个基因和233,615个转录本,其中有19,969个基因和86,245个转录本预测为蛋白质编码区域。

Segmental duplications and their variation in a complete human genome
大片段复制(segmental duplications,以下简称SDs)在人类疾病和进化中具有重要意义;但由于其结构的复杂性,这些高度相同的大片段重复(SDs)是人类参考基因组(GRCh38)中最后完成的区域之一。基于完整的 T2T人类基因组(T2T-CHM13),研究者们呈现了一个综合的人类SD结构组织。在染色体级别的scaffolds中鉴定了218Mbp的SDs,其中1/3(81.3 Mbp)的SDs为新发现的或其结构与GRCh38中是不同的,将人类基因组片段复制的占比预估值从5.4%提高到了7.0%,发现近端着丝粒染色体的63%(35.11/55.7Mbp)由SDs组成,且SDs长度比其他SDs长1.75倍(p=0.00034)。使用DupMasker对所有T2T-CHM13 SDs进行注释,鉴定了30个在T2T-CHM13和GRCh38之间拷贝数变化最大的复制子,而这也是基因注释最有可能改变的区域,然后,研究者们集中关注了这30个SDs结构组织的验证,将来自人类fosmid基因组文库(25)的可用末端序列数据比对到T2T-CHM13组装结果中选择合适的探针以确认高同一性(>95%)SDs的模式,结果显示所有30个基于T2T-CHM13预测的SDs都得到了验证。与独特区域相比,SDs有更丰富的单核苷酸变异多样性,而基于T2T-CHM13和GRCh38参考基因组的高质量和单倍型性质,研究者分析比较了全基因组模式的单核苷酸变异,同时基于GRCh38 and T2T-CHM13的共有区域,研究者预估了unique regions 的单核苷酸变异(SNV)密度为0.95SNVs/kbp,而当加上SDs区域时,密度上升为1.47 SNVs/kbp,这50%的增加可能是因为SDs突变率的增加(例如,由于中间基因转换的作用),或是重复序列的平均聚合程度加深。此外,研究者关注了重复基因转录相关的甲基化特征,发现SD区块通常作为一个整体被甲基化或非甲基化,分析预测了182个新的蛋白质编码候选基因,其中许多代表扩张的串联重复(例如,X染色体上的GAGE基因家族成员)或大的散布重复(例如,β-防御素基因座),将几乎相同的基因的额外拷贝添加到人类基因组中。比较了其他人类(n=12)和非人灵长类(n=5)基因组的长读长组装结果,使用T2T-CHM13基因组系统地重建了在人类额叶皮质扩张中重要的生物医学相关(LPA、SMN)和重复基因(TBC1D3、SRGAP2C、ARHGAP11B)的进化和结构单倍型多样性。此项研究揭示了人类及其近亲在SD结构中前所未有的结构杂合度模式和巨大的进化差异。

T2T-CHM13GRCh38SD的统计

T2T-CHM13基因组中的SD占比

Epigenetic Patterns in a Complete Human Genome
人类第一个端粒到端粒基因组T2T-CHM13的完成,使人们能够探索完整的表观基因组,消除之前参考序列缺失所带来的限制。现有的表观遗传研究忽略了未组装和无法定位的基因组区域(如着丝粒、着丝粒附近、端粒臂、亚端粒、片段重复、串联重复)。利用人的基因组完成图,我们能够通过k-mer辅助绘图方法测量表观遗传标记的富集。这使得阵列级富集信息能来表征这些卫星重复的表观遗传调控。利用Nanopore测序数据,我们生成了迄今为止最完整的人类甲基化基因组。我们分析了卫星DNA的甲基化模式,并揭示了沿单个分子有序的甲基化模式。在探索着丝粒表观基因组时,我们发现了一个与着丝粒组装的活性位点一致的着丝粒甲基化的显著下降。并且发现低甲基化区域极其难以接近,并与CENP-A/B结合配对。利用长读长,我们研究了复杂的大卫星阵列(如X染色体失活)中特异等位基因的大范围表观遗传模式。利用单分子测序,可以基于甲基化状态区分表观遗传异质性和均质区来聚类。该研究应用长读长和短读长技术为表观遗传调控提供了新的见解,为研究人类基因组最难以捉摸的区域提供了一个框架。

 

2001年人类基因组计划完成,使人们不仅能够了解编码序列,而且能够了解基因组的其他部分如何通过表观基因组调控基因表达。但表观基因组只能通过生成人类基因组的完整基因组才有机会来探索最后的前沿——基因组的重复区域。在T2T-CHM13中,绝大多数新序列位于着丝粒间、着丝粒和端中心区域(+180.5 Mb)和片段重复区域(+44.2 Mb)。基因组的表观遗传调控不仅控制基因表达,而且通过调控异染色质提供基因组的稳定性。

长读长生成人类染色体完全甲基化图谱

利用T2T-CHM13基因组,我们已经开始探索新完整区域的表观基因组。通过k-mer辅助制图,我们利用现有的短读数据来探索重复阵列水平的表观遗传图景。为了检测重复区域,我们应用Nanopore的长读长表观遗传学分析。与合成测序策略不同,Nanopore测序直接探测DNA,可以同时测序碱基序列和表观遗传状态,长读长提供了对单个分子表观遗传模式的更深入的了解。结合T2T-CHM13组装和来自同一CHM13细胞系的超长读长CpG甲基化数据,我们生成了迄今为止最完整的人类甲基化组。染色体臂上的着丝粒卫星和大卫星的高分辨率甲基化图谱揭示了这些区域的新机制和表观遗传特征。纳米孔测序的单分子读取特性允许进一步了解表观遗传细胞间的异质性和单倍型甲基化。随着对完整基因组组装的大规模改进和超长Nanopore数据的可定位性的结合,研究大范围卫星阵列的表观遗传调控在技术上成为可能,并可揭示新的机制和调控事件。

项目文章 | 基因组研究解析波纹唇鱼进化历史并分析与性别反转相关的视蛋白基因

波纹唇鱼是一种具有较高经济和生态价值的濒危物种,主要特点雌鱼能向雄鱼的性反转,其中的分子机制尚不清楚。近日,上海海洋大学海洋动物分类与进化重点实验室唐文乔团队及其合作者在国际知名期刊Molecular Ecology Resources上以“Chromosome-level genome assembly of the endangered humphead wrasse Cheilinus undulatus: Insight into the expansion of opsin genes in fishes”为题目报道了波纹唇鱼基因组研究成果,组装得到的波纹唇鱼基因组大小1.17Gb,Contig N50 16.5 Mb。研究者对该基因组进行了注释和进化分析工作,并对影响性别反转的视蛋白基因进行了挖掘。本文章的研究成果为鱼类的保护、进化和行为研究提供了宝贵的资源。希望组为研究的顺利进行提供了基因组测序、组装和标准分析服务。
基因组组装注释
研究团队利用Illumina、Nanopore和Hi-C测序,采用NextDenovo +SMARTdenovo + NextPolish策略组装,初步获得大小约1,173.4Mb的基因组,Contig N50达到16.5 Mb,BUSCO评估96.36%,单碱基准确性99.99%;然后利用145.8 Gb Hi-C数据辅助染色体挂载,最终得到24条染色体,Scaffold N50 51.5 Mb,挂载率99.98%;之后,通过同源比对预测并结合RNA-seq数据集,共预测基因22,286个,其中,22,218 (99.69%)个基因得到了功能注释;重复序列注释共鉴定重复序列540.85 Mb,占基因组大小的46.07%,其中,转座子占基因组大小的39.88%。
波纹唇鱼染色体大小和基因密度
基因家族和进化分析
为了分析波纹唇鱼的进化历史,研究者对波纹唇鱼和其它14种近缘物种进行基因家族比较分析,共鉴定出15,688个基因家族和560个单拷贝基因。接着,采用单拷贝基因家族构建系统发育树,波纹唇鱼与娇扁隆头鱼和贝氏隆头鱼亲缘关系最密切,同属于隆头鱼科。在约95.32 Mya,波纹唇鱼与三刺鱼和花鲈共同祖先发生分化。进一步的基因家族分析共鉴定出567个扩张基因家族和1,826个收缩基因家族以及46个显著正选择基因。
波纹唇鱼的基因家族、系统发育树和分化时间
视蛋白基因分析
颜色匹配性伴侣的吸引力很大程度上是通过视觉线索来识别的。然而,关于波纹唇鱼性沟通和性选型交配的潜在机制却知之甚少。研究者通过比较基因组学检测到数个视蛋白SWS2BLWS1Rh2基因的数量以串联方式扩增,并在关键位点上出现氨基酸替换,这可能加强了基因重复后的功能变化,导致视觉色素最大吸光度的光谱偏移,以捕捉功能变化。SWS2A基因丢失,而SWS2B基因拷贝数的增加是由于基因转换引起的非等位同源重组,这是由特定基因组区域的转座因子引起的。视蛋白的表达在促进鱼类交配行为和进化中起着关键作用。转录组聚类分析也表明波纹唇鱼视蛋白基因有表达差异,SWS2B-3SWS2B-4Rh1在视网膜中表达,其中Rh1在视网膜中表达量最高,而SWS1SWS2B-2Rh2b在其他区域而不在视网膜中表达。这说明基因复制后的变化使得这些基因获得了新的功能。
基于560个单拷贝同源性物种树基因组中视蛋白基因的共线性和定向性
总之,本研究团队利用Illumina+Nanopore+Hi-C技术组装注释了高质量的染色体级别波纹唇鱼基因组,阐明了波纹唇鱼的进化,并通过比较基因组和转录组分析了影响波纹唇鱼发生性别转换的视蛋白基因。本研究的数据和结果为研究波纹唇鱼的行为、基因流动和进化提供了宝贵的资源。

项目文章丨利用长读长全基因测序检测牦牛驯化过程中选择的结构变异

三代测序由于其长读长的特点,可以协助检测以往二代短读长测序未能发现的大的结构变异(Structural Variants,SVs)。结构变异也是研究自然选择和人工选择的重要研究手段。2021年5月3日,兰州大学刘建全团队在Molecular Biology and Evolution杂志在线发表题为“Structural variants selected during yak domestication inferred from long-read whole-genome sequencing”的文章,首先利用三代ONT长读长测序以及Hi-C测序获得了组装高度连续的高质量家养牦牛BosGru3.0的参考基因组,并通过长读长重测序数据分析,对比野生牦牛与家养牦牛的SVs,发现了一些主要与神经系统、行为、免疫和繁殖相关的基因,为高海拔地区动物的驯化提供了新的视角。希望组在本项目研究中提供了三代ONT测序服务。

背景介绍
家畜驯化是人类文明史上的主要成就之一。驯化后的动物会有一系列的表型变化,如脑体积减小和驯养性增加等被称之为驯化综合特征。在一些家养物种中,可以通过检测单核苷酸多态性(SNPs)、短的片段插入和缺失(InDels)和拷贝数变异(CNVs)等遗传标记来挖掘潜在的遗传信息。然而,结构变异(包括插入、缺失、复制、倒位或50bp或更长的易位)的作用,由于两种技术限制,并未得到充分的研究。第一个限制,是检测SVs需要能跨越其全长的长读长测序reads。第二个限制是需要具有连续组装的参考基因组,能覆盖基因组中的重复区段。尽管由于单碱基的错误率较高,长读长测序不适合检测单核苷酸变异(SNVs),但它仍是检测大片段SVs的首选方案。在本研究中,利用三代ONT测序以及Hi-C测序,构建了一个高质量的染色体级别组装的BosGru3.0参考基因组,并通过6头野生牦牛以及23头家养牦牛的长读长重测序数据分析,构建覆盖牦牛地理范围内的372220个SVs的SV基因图谱。
三代基因组测序与组装
用于染色体级别组装的BosGru3.0参考基因组,其DNA来源于四川省红原县的一头公牦牛血液。对测序深度约88x的ONT长读长reads进行de novo组装。利用illumina短读长数据对基因组进行polish,并通过Hi-C数据,利用染色体互作强度对基因组数据进行聚类,最终得到一个组装高度连续的BosGru3.0参考基因组,拥有116条contigs,组装成了31条染色体。BosGru3.0的contig N50为44.72Mb,scaffold N50为114.39Mb,远高于其他反刍动物的参考基因组。组装完成后,对重复元件、蛋白质编码基因和非编码元件进行了预测。总共预测了21232个蛋白编码的基因。
表1 BosGru3.0与BosGru2.0的基因组组装比较
长读长重测序分析

研究者选择了23个不同地点的家养个体和6头野生牦牛进行了全基因组长读长重测序。长读长基因组测序的N50平均长度分别达到了22.59Kb(家养)和21.99Kb(野生),有效深度从8.4x到15.6x(家养),11.4x到21.2x(野生)。最终鉴定出372220个SVs,其中包括328936个缺失,32618个插入,4321个重复,1993个倒位以及4352个易位。根据所有SVs在BosGru3.0上的位置进行了相关注释,发现257155个SVs在基因间区,93582个SVs在内含子区,14964个SVs在外显子区,1811个SVs在UTR区以及有3620个SVs在基因的上游和下游侧翼150bp处。大多数SVs(74.43%)含有重复序列。野生牦牛和家养牦牛基因组的SV序列比较显示,各重复序列占比均无明显差异。
为了进一步识别可能参与驯化的SVs,研究者们计算了所有野生和家养牦牛的SVs FST值,发现了3680个SV的FST outliers值大于人为选择的0.28。在这些高FST的 SVs中,有2391个SVs(占所有SVs的0.64%)存在于基因间区,有1288个SV在外显子、内含子或725个基因的侧翼区域。其中,有34个在外显子区域有缺失,有24个导致了ORF的位移(无意义SVs)。
随后对725个高FST的SVs的基因功能进行了注释,发现这些基因最显著富集的功能与神经系统发育和人类疾病,长时程抑郁相关。其他GO功能分类与神经系统相关,包括了神经元的分化,神经元的生成等。典型的例子是具有第二高FST的基因,其结构变异位于信号蛋白MAGI2的内含子中。人类MGAI2基因的缺失与癫痫和精神分裂症有关,在攻击性犬种研究中发现其MAGI2附近存在几个CNVs。其他三个高FST SV基因(GAD2PLCB2GRIK2)也有文献报道了类似的行为关联。
其他携带SVs的基因还涉及到了免疫、解剖学形态结构以及经济性状等方面。例如,NAFI已被证实通过在T细胞中下游靶向的IL-2生长因子来调控有效的免疫调节细胞因子的表达。GSK3BGSK3A的一个isoform,有研究发现其与猪的脂肪存储能力有关。敲除GSK3A可改善小鼠对葡萄糖的糖耐量,并提高了肝糖原的储存和胰岛素的敏感性。无意义SVs相关的一些基因也有研究表明是参与了智力或大脑的发育,例如PAX2MAGT1以及SHROOM2SSBP3
图 野生和家养牦牛SVs重测序分析
综上所述,SVs已参与牦牛的驯化过程,且其靶向基因优先与神经系统、行为和免疫相关。这些研究的发现为牦牛的驯化和牛的进化提供了新的见解。
原文链接:https://doi.org/10.1093/molbev/msab134

项目文章|高质量毛榛和两种真骨鱼基因组组装与分析

近日来,喜讯连连!首先是2月3日,中国科学院深海科学与工程研究所何舜平研究员与西北工业大学王堃副教授的联合团队在《Molecular Biology and Evolution》上公布了高质量的剑鱼、旗鱼基因组,解析了它们的恒温机制。接着是3月1日,兰州大学草地农业生态系统国家重点实验室,生态学创新研究院杨勇志研究员团队在《Horticulture Research》上发表了毛榛染色体级别基因组,挖掘了影响榛子油脂合成的潜在基因和基因家族。希望组有幸参与两篇高质量论文的部分测序和组装工作,详细内容如下:

两种真骨鱼基因组解析鱼类恒温进化
The Genomes of Two Billfishes Provide Insights into the Evolution of Endothermy in Teleosts
发表期刊:Molecular Biology and Evolution(IF:11.062)
发表时间:2021.02.03
研究对象:两种真骨鱼(sailfish and swordfish)
主要技术平台:Nanopore、MGISEQ-2000、Hi-C
主要完成单位:中国科学院深海科学与工程研究、西北工业大学
第一作者:武宝生 (中科院深海所)
通讯作者:何舜平研究员 (中科院深海所) 和王堃副教授 (西北工业大学)
希望组贡献:提供本研究的测序和NextDenovo、NextPolish软件组装服务

图 sailfish and swordfish

恒温是生物体一种典型的趋同进化,可以帮助物种克服环境的约束,对生物体扩展生态位非常有利。在脊椎动物中恒温独立进化至少进行了8次,除了哺乳动物和鸟类这类恒温动物以外的物种,尤其是真骨鱼等水生恒温物种,它们的恒温起源和机制此前尚未完全了解。
本研究选择恒温真骨鱼代表性谱系箭鱼和旗鱼为研究对象,通过测序和组装获得了高质量的染色体级别基因组,验证了其恒温的独立进化过程(图2)。Sailfish and Swordfish基因组组装大小分别为585.62Mb和 659.53 Mb,重复序列占比分别为26.70%和36.35%。

图2脊椎动物的恒温起源和两种真骨鱼的基因组组装

同属真骨鱼的箭鱼和旗鱼与另一谱系的金枪鱼是独立起源的,但在表型上具有明显的趋同性,因此本研究在分子水平上分析了箭鱼、旗鱼和金枪鱼之间的趋同进化,发现了50个正向选择的趋同基因,有4个显著趋同信号的基因(图3),其中pkmb、ryr1a和atp2a1在同一个循环通路中,与深红色肌肉产热相关,可以使分解的ATP产生的能量用于产热而非钙离子运输。
结合真骨鱼中的融合基因和谱系特异性的创新基因,发现了与产热、保存和调节相关的基因变化可能是真骨鱼恒温的关键(图3)。

图3 真骨鱼和金枪鱼中产热的趋同进化

本项研究为我们揭开了两种真骨鱼的恒温起源之谜,解析了它们的恒温分子机制,同时也为今后的研究方向提供了参考意见:不同的恒温物种谱系之间的异同,分子水平上的趋同进化广泛性都值得深入研究探讨。
高质量毛榛基因组为桦木科基因组的进化和榛子育种提供见解
The Corylus mandshurica genome provides insights into the evolution of Betulaceae genomes and hazelnut breeding
发表期刊:Horticulture Research(IF:5.404)
发表时间:2021.03.01
研究对象:毛榛
主要技术平台:Nanopore、HiSeq X Ten、Hi-C
主要完成单位:刘建全团队
第一作者:李颖(兰州大学)、孙朋川(四川大学)
通讯作者:杨勇志(兰州大学)
希望组贡献:提供本研究的测序和NextDenovo、NextPolish软件组装服务

图1 毛榛

图2 毛榛 C. mandshurica 基因组特征及进化和比较基因组分析

利用比较基因组学的方法,本研究重构了桦树属基因组的进化历程,通过推断桦木科五个基因组之间的同源性,确定了毛榛的进化地位,显示毛榛基因组是由于祖先基因组经历1次染色体相互易位,2次嵌套染色体融合和1次染色体端端相连形成了目前的11对染色体核型。同时推测桦木科物种共同起源于一个有14对染色体的祖先基因组,解析了桦木科物种繁多的原因是祖先基因组发生了多次断裂和融合等事件。

图3 桦木科五个基因组的核型进化图解和祖先核型及进化过程中的染色体融合

本研究共鉴定了96个油酸生物合成的候选基因,其中10个表现出了快速进化和正向选择特性。进化分析探究了影响榛子油脂合成的潜在基因和基因家族,鉴定了764个油脂相关基因和一些于抗逆相关的基因家族,这些抗逆基因家族在毛榛基因组中呈现快速扩张趋势。

图4 毛榛基因组代谢途径和生物合成相关基因

总而言之,本研究获得的榛子参考基因组是目前已公布的桦木科基因组中组装质量最完整的,并且首次鉴定了油酸生物合成相关的候选基因,将在榛子功能基因组研究和品质改善中产生巨大价值。

项目文章|三代转录组测序揭示精子中完整Long RNAs图谱

2021.03.01,Nature Communications杂志在线发表题为“Single-molecule long-read sequencing reveals a conserved intact long RNA profile in sperm”的研究论文,由美国罗切斯特大学李鑫团队与爱荷华大学(现俄亥俄州立大学)区健辉团队合作发表。该研究利用三代测序技术检测了精子细胞中完整的 long RNAs(spiRNAs),在小鼠和人类精子中分别检测到了3440和4100种 spiRNAs。结果显示,这些spiRNAs种类上包含mRNA和long non-coding RNAs,进化上spiRNA在小鼠和人类之间是相对保守的,并且在编码核糖体的mRNAs中显示富集。该研究描述的完整long RNAs图谱为进一步研究其生物成因和功能提供了基础,同时本研究中的策略和自主开发的生物信息分析流程为其它类型样本完整longRNAs鉴定提供了参考。希望组提供了本次研究的部分三代测序服务。

文章题目:Single-molecule long-read sequencing reveals a conserved intact long RNA profile in sperm
发表期刊:Nature Communications
发表时间:2021.03.01
影响因子:12.121
测序技术:Pacbio Iso-Seq、Illumina、Nanopore cDNA全长转录组

研究背景
在受精过程中,精子会向合子传递多种RNAs,早期研究已经证实这些RNAs能参与调节表观遗传,响应环境因子从而影响后代表型。目前研究者们关于small RNA的研究较多,但是对于哺乳动物中>200nt的long RNAs却知之甚少。由于检测技术灵敏度和二代高通量测序读长的限制,导致spiRNAs的研究非常受限。三代测序因其长度长优势被广泛应用于全长转录本的鉴定,而二代测序由于其高准确性等优势仍被沿用,但尽管结合三代测序和二代测序解决了读长和准确度的问题,目前也难以精确确定长reads的5′和3′边界。在这项研究中,研究者分离出超纯的小鼠精子RNA,使用三代和二代测序包括精巢样本CAGE及PAS-Seq,呈现全面的精子转录组特性,证明精子中存在完整的long RNAs,探索哺乳动物中spiRNAs可能存在的生物学功能。通过对比小鼠和人类精子的RNAs转录组数据研究spiRNA在进化上的保守性和功能性,并为相关医学诊断提供了参考RNAs信息表。此外本研究中所使用的策略和自主开发的生物信息分析流程将为其它组织或器官的完整longRNAs鉴定提供参考。
材料和方法
该研究以小鼠和人类精子为材料,分离超纯的精子RNA,进行Pacbio Iso-Seq和Illumina转录组链特异性文库测序,数据用于后续分析。共获得256,897个PacBio Iso-Seq long reads,测序深度达到饱和。同时使用ONT cDNA全长转录组测序分析鉴定精子全长转录本,验证并丰富转录组组装结果。此外,使用来自精巢的CAGE and PAS的数据校正精子中的完整转录本,多种类型文库和平台测序数据结合分析,为小鼠精子提供了一个高质量参考转录组(图1)。
主要研究结果
1.小鼠精子中存在完整的long RNAs且与精巢中的有明显不同
 
本研究证实了小鼠精子存在完整的 long RNA,共检测到了来自1,624个基因位点的3,440 种spiRNA ,其中有755种spiRNA和参考序列中已报道过的完全相同,198种spiRNA的基因位点是全新的,7种spiRNA是已知基因位点的反义链(图2a),2479种为已注释位点的新转录本(图2b),研究发现这些新转录本大多由APAs作用产生而来,只有少部分是由可变剪切和选择性转录起始产生(图2c)。此外检测到了1个跨越两个邻近基因的spiRNA(图2d)。与精巢中的完整转录本不同,spiRNA 长度更短(963nt)且有特异性功能富集,基于GO富集分析,spiRNA最显著富集之一的是编码80S核糖体的mRNAs(图4a),而这在精子成熟过程中是不需要的,说明spiRNAs具有组织特异性。

图2:精子中存在完整的long RNA转录本.

2. spiRNAs包含mRNAs和lncRNAs

为了验证spiRNAs在精子发生发生过程中的编码潜力,研究者们结合已有的Ribo-Seq数据库分析后,将小鼠的spiRNAs分成了2343个mRNAs和1097个lncRNAs,RPFs(ribosome protected fragments)在spi-mRNAs的编码区富集(图3a),并且发现在spi-mRNAs上富集的RPFs呈现出了三核苷酸的周期性 (three-nucleotide periodicity)(图3b)。此外该研究还验证了新转录本的潜在编码功能,来自已知位点的共2479个新isoforms中有1538个被注释为mRNAs, RPFs也分布在新的外显子序列中(图3c),这说明spi-mRNAs中的RPFs是可以进行翻译的。而对于来自新位点的198个新转录本,研究者们观察到78个已经注释的mRNAs和120个lncRNAs(图3d,e)之间存在明显差异,这种现象和全转录本中相似(图3a,b)。

图3 spiRNAs include both mRNAs and lncRNAs
3.小鼠与人类之间的spiRNA profile在进化上是保守的
为了检测spiRNA在进化上的保守性,研究者们同时还对人类精子RNA进行了测序 (图5),分析后共检测到2205个基因位点中的4,100 spiRNAs ,包括3517个mRNAs和583个lncRNAs。对比发现小鼠和人类共有562个spiRNAs相同(图4c)。以所有人类spiRNA genes 作为背景进行GO富集分析,结果显示编码蛋白质合成的mRNAs得到了富集(图4d),与在小鼠精子中的发现一致(图4a)。研究者们进一步分析了非核糖体mRNAs,发现小鼠和人类依然存在明显的重叠。说明可能存在一种保守机制决定spiRNAs序列库。

 
图4  The spiRNA profile is evolutionarily conserved
 
 图5 Diverse transcripts in human sperm
总结与讨论

这项研究证明了精子中存在完整的 long RNAs,并在编码核糖体蛋白功能中显示富集,其功能与精巢中的RNAs不同,说明其具有一定的组织特异性。而另外发现的spiRNA在小鼠和人类中具有保守性,说明可能存在一种潜在的保守机制决定着spiRNAs序列库。

总之,该研究结合自助开发的研究策略和生物信息分析流程,揭示精子细胞中的完整RNA图谱,推动了RNA介导的表观遗传学研究,并为该领域进一步的研究提供了宝贵资源。

Cell+Nature!希望组NextDenovo+Ultra-long 助力肺鱼基因组解析!

肺鱼是现存最接近四足动物的近亲,并保留了由水生向陆生过渡相关的祖先特征。现存的6种肺鱼,有4种生活在非洲,1种生活在南美,还有1种生活在澳大利亚。近日,2个不同的研究团队分别以非洲肺鱼和澳洲肺鱼为研究对象在国际顶级期刊Cell和Nature上发表了研究成果。肺鱼基因组是迄今为止报道的最大的动物基因组(约40Gb),基因组中大量的重复序列(>60%)进一步增加组装的难度,希望组凭借领先的ONT Ultra long测序和自主开发的NextDenovo基因组组装技术分别助力两研究团队完成了高水平的基因组组装,其中,为非洲肺鱼文章提供了Nanopore测序和NextDenovo、NextPolish软件的使用,使得该超大基因组的BUSCO评估达到95%以上,武汉希望组生物科技有限公司胡江为本文的共同第一作者;为澳洲肺鱼文章提供了Nanopore Ultra-long测序服务。

图1 非洲肺鱼

African lungfish genome sheds light on the vertebrate water-to-land transition

发表期刊:Cell (IF:38.637)

研究对象:非洲肺鱼

主要测序技术:Nanopore1D、BioNano和Hi-C

主要完成单位:西北工业大学生态与环境学院、中国科学院水生生物研究所淡水生态与生物技术国家重点实验室、中国科学院昆明动物研究所遗传资源与进化国家重点实验室等

第一作者:王堃、王俊、朱成龙、杨连东,任彦栋、阮珏、范广益、胡江(希望组)

通讯作者:王文、何舜平、邱强、赵文明

希望组贡献:提供基因组测序和NextDenovo、NextPolish软件及组装技术支持

非洲肺鱼染色体基因组组装、重复序列与进化分析
研究团队利用Nanopore Ultra long、BioNano和Hi-C测序,采用NextDenovo + wtdbg2 + NextPolish策略组装,最终获得约40.05 Gb的基因组,Contig N50达到1.60 Mb;结合BioNano和Hi-C数据对基因组构建Scaffold和辅助染色体挂载,最终得到17条染色体,Scaffold N50 2.81 Gb,染色体挂载率达到99%以上。BUSCO评估显示该基因组包含了95%以上的脊椎动物完整基因。非洲肺鱼基因组如此巨大主要是由TEs的扩张引起的,非洲肺鱼基因组的61.7%(24.7 Gb)被注释为重复序列。研究团队通过分析Kimura distance估算了TE历史扩张活动,结果表明TEs,特别是反转录转座子,在过去7000万年中一直活跃。基于基因组组装和注释结果,通过对8种脊椎动物的5149个单拷贝基因进行系统发育重建,证实非洲肺鱼是与四足动物最近的姐妹谱系,非洲肺鱼和四足动物的分化时间可追溯到泥盆纪伊始,估算为419 MA。

图2 非洲肺鱼染色体水平基因组组装和进化史

基因改变增强了呼吸能力
肺呼吸能力的进化可能经历了三个步骤:第一步是硬骨鱼的共同祖先已具备了最初级的呼吸空气的能力(已有文献支持),本研究中检测到所有硬骨鱼中存在Sftpb同样也证实这一观点。第二步是通过诸如Sftpc的出现和邻近Foxp1的保守非编码元件(CNEs)等基因创新,肉鳍鱼类的共同祖先获得了增强空气呼吸的能力。第三步可能是进一步的基因创新,包括SftpaSftpd的出现以及Foxp2附近保守非编码元件(CNEs)的出现,为四足动物进化出呼吸系统提供了最后的关键基础。

图3 肉鳍鱼类肺呼吸功能的演变

五趾肢的起源与陆地运动
五趾的出现是脊椎动物从水生到陆生过渡的标志事件。研究者在Hoxa11上游200 bp处发现了一个长度为67 bp的四足动物特有的保守非编码元件(CNE),这个四足动物特有的CNE可能是五趾肢起源的关键基因创新。通过不同的四足动物比较验证了这一观点(在两栖类、鳄鱼、海龟和哺乳动物中,这一元件高度保守,但在蛇和鸟类的基因组中却发生了相当大的改变)。从近端到远端,四足动物的四肢由鳍到肢的过渡形成了上肢、中肢和掌部三部分。转录组和基因组数据验证了and1/2and3Hoxb13基因可能与鳍肢过渡有关。除了发生形态学变化外,四足动物还需要运动神经元刺激控制四肢的肌肉。研究发现位于Hoxc10(已被证实在小鼠腰椎运动神经元、分区和运动池识别中发挥关键作用)上游(3 Kb和2.5 Kb)的2个四足动物特异性的保守非编码元件(CNE)是候选增强子,可能与四足动物的地面运动有关。

图4  肢起源和与陆地运动相关的基因变化

基因改变增强了抗焦虑能力
脊椎动物从水到陆地的过渡过程中,伴随着大脑边缘系统的变化。通过全基因组扫描,研究者在肺鱼和四足动物最后的共同祖先谱系中发现了两个新基因Npsr1Nps,这两个基因分别编码神经肽S受体(Neuropeptide S receptor, NPSR)和神经肽S(Neuropeptide S, NPS),具有促进兴奋和抗焦虑的作用,可调节承压能力,增强杏仁核突触抑制。研究结果表明,Npsr1基因起源于肉鳍鱼类催产素受体基因的复制,主要在大脑和脊髓中表达。Nps起源于肉鳍鱼类的前体序列。除了NPS/NPSR系统外,杏仁核内的γ -氨基丁酸(GABA)是另一种重要的抑制神经递质,用于控制恐惧和焦虑的感觉。GABA相关基因在硬骨鱼类中高度保守的元件在肺鱼与四足类动物的最近共同祖先中却发生了插入或缺失。第一个基因IgSF9b有6个AA缺失;第二个基因Arfgef1有两个AA插入。此外,编码生长激素的Gh基因被检测到在四足动物和非洲肺鱼的大脑中特异性表达,杏仁核中Gh基因上调与恐惧记忆的形成有关。总之,这些由肺鱼和四足动物共享的基因创新与之前的研究一致,即类似四足动物的杏仁核复合体起源于肺鱼和四足动物共同祖先世系。

图5 与杏仁核和抗焦虑能力相关的基因改变

基因变化与咽重塑
随着陆生脊椎动物的主要呼吸功能由鳃向肺转移,鳃弓不再产生鳃。鳃弓也从肉鳍鱼类的5个减少到四足动物的4个或3个。Hoxb3基因在调节咽弓的发育中起重要作用。位于Hoxb3上游4 Kb处的非编码元件(CNE)存在于在大多数脊椎动物中,但在四足动物中该区域已不再保守。这可能是由于两个咽弓缺失导致选择松弛的结果。与此同时,人类等四足动物胚胎发育阶段的第二咽弓被重塑,用以覆盖更多的尾弓,导致后弓内在化,并在后端丢失了一个外开口。自四足动物出现后,甲状旁腺便出现在咽后囊中,这些腺体负责调节释放体内储存的钙,而在鳍刺类鱼中是通过鳃来实现这一功能。Pax1基因是与第二弓后咽袋和甲状旁腺的发育直接相关。研究者在Pax1上游发现了一个四足动物特异性的保守非编码元件(CNE),它能起到增强子的作用。Gcm2基因对甲状旁腺的分化和存在也至关重要。比较研究发现该基因在鳐鱼和非洲肺鱼的鳃中高度表达,而在爪蛙的鳃中表达量较低,说明在四足动物中,相应的功能已经从鳃转移到了甲状旁腺。
 

图6 与咽重塑相关的基因变化

Giant lungfish genomeelucidates the conquest of land by vertebrates
发表期刊:Nature (IF:42.778)

研究对象:澳洲肺鱼

主要测序技术:Nanopore1D 、Ultra long和Hi-C

主要完成单位:德国康斯坦茨大学生物系、德国维尔茨堡大学生物中心等

第一作者:Axel Meyer、Siegfried Schloissnig、Paolo Franchini、Kang Du、Joost Woltering

通讯作者:Axel Meyer、Manfred Schartl、Elly M. Tanaka、Thorsten Burmester、Oleg Simakov

希望组贡献:提供NanoporeUltra-long测序服务

图7 澳洲肺鱼

澳洲肺鱼的基因组测序与陆地运动的进化
研究者利用Nanopore 1D 和Ultra long技术对澳洲肺鱼进行了全基因组测序组装,最终组装出37Gb,Contig N50达1.86Mb的澳洲肺鱼基因组。之后利用271Gb Hi-C 数据,对基因组进行染色体级别组装,最终得到Scaffold N50 1.75Gb,组装出了17条大染色体和10条小染色体。BUSCO评估组装的基因组包含67%的脊椎动物完整基因。肺鱼是属于肉鳍鱼类中的一类,肉鳍鱼的叶状鳍在进化中最终形成了适于陆地爬行的足趾。通过比较基因组分析,研究者对保守的四足动物肢体增强元件的分析表明,有31种起源于肉鳍类。与sall1相关的hs72增强子驱动掌部区域基因表达。sall1在肺鱼胚胎中高表达,并呈现类似于四足动物的表达模式,但在斑马鱼的鳍发育过程中不表达。这表明该基因功能和肺鱼的肉鳍类叶状鳍发育相关。hoxc基因在双鳍和四肢中的表达仅在与甲床相关的哺乳动物中报道过,而RNA-seq分析发现在肺鱼幼体鳍部hoxc基因有表达。研究者还发现hoxc13在蝾螈肢中表达,在辐鳍鱼的胸鳍中不表达,转录本定位显示hoxc13也在肺鱼胚胎远端鳍表达。这表明在四足动物中,该基因结构域可能调控肢体元素生成,如指甲、蹄和爪。hoxcsall1一起,证明了早期肉鳍类起源的四肢样基因表达促进了鳍肢过渡。

图8 肉叶鳍的预适应调节与hoxd基因调控

总之,这2篇高水平的基因组文章分别以非洲肺鱼、澳洲肺鱼为研究对象,分析了肺鱼类的物种和基因组特点,并从不同视角推演了脊椎动物从水生到陆生进化过程,增加了我们对脊椎动物陆生进化的理解,为鱼类到人类的进化提供了宝贵的资源。

作为三代测序基因组学中心,希望组拥有最新的Oxford Nanopore PromethION、PacBio Sequel II、BioNano光学图谱和HiC等技术,是目前国内少数能同时稳定产出高质量ONT ultra-long reads和 PacBio HiFi reads的服务商之一。并自主开发了NextDenovo/NextPolish系列三代测序组装软件,同时配备高水平生信分析团队,完全可以解决超大型基因组的难题,我们将继续致力于攻克更多超大型复杂动植物基因组图谱,为您提供高质量、高准确度的测序、组装、分析服务。

Plos Biology∣汤富酬课题组与希望组开发出单细胞转录组三代单分子测序新方法

2009年首个单细胞转录组测序技术问世,开启了单细胞组学时代(scRNA-seq)(Tang et al., 2009)。过去十余年间单细胞测序技术的不断发展极大地加速了生物医学领域的相关研究,帮助科研人员克服了稀有生物样本以及生物样本内生异质性等重大挑战,一系列模式生物及人类自身的单细胞转录组图谱也由此诞生。然而目前的单细胞测序技术几乎全都是基于二代测序平台,测序读长短,一般在150bp左右,即使采用双端测序技术,测得的有效读长也不超过500bp。而人类转录组中转录本的长度普遍在1000bp以上,有些转录本长度甚至超过100kb(Piovesan et al., 2016; Frankish et al., 2019),远远超过二代测序方法所能检测的最大读长。

为了解决基于二代测序平台的单细胞转录组测序技术难以获得单个细胞中全长转录本的准确信息这一核心困难, 2020年12月30日,北京大学未来基因诊断高精尖创新中心、生物医学前沿创新中心汤富酬课题组与北京希望组生物科技有限公司合作在Plos Biology上在线发表了题为“Single-cell RNA-seq analysis of mouse preimplantation embryos by third-generation sequencing”的研究论文。该研究的主要突破有:

1)开发了一种基于三代单分子测序平台的高灵敏度单细胞转录组测序方法—SCAN-seq (Single cell amplification and sequencing of full-length RNAs by Nanopore platform),能够在单细胞分辨率直接获取全长转录本序列信息,表现出高灵敏度和高稳健性,在小鼠胚胎干细胞每个单细胞中可以检测到8000多个基因的表达,与之前基于二代测序平台最灵敏的单细胞转录组测序方法不相上下(如图1所示)。

图1 SCAN-seq的流程和评估

2)鉴定出了30000多种全新的转录本。总共只测序了200多个单细胞就在小鼠胚胎干细胞(mESCs)和小鼠植入前胚胎中分别鉴定出6487条和27250种新转录本。相比基于二代测序平台的所有单细胞转录组测序方法,SCAN-seq能够区分新找到的转录本是来自同一已知转录本的新转录本,还是来自不同已知转录本已注释剪接点的重新组合的新转录本(如图2所示)。

图2 未注释转录本的鉴定

3)首次提出单细胞转录组三代测序数据可以将一个单细胞中的父母源转录本准确区分开、分别进行精准定量分析。SCAN-seq显示出在同一个单细胞中精准识别小鼠品系特异性单核苷酸多态性(SNPs)的能力,平均误差率只有1.8%。利用这一方法,在单细胞分辨率确认了小鼠2-细胞期后的胚胎细胞中父源等位基因的mRNA比例逐渐增加,到囊胚期时每个胚胎细胞中来自母源和父源等位基因的mRNA拷贝数变得相当(如图3所示)。

图3 等位基因特异性转录本的分析

该研究开发出的SCAN-seq新方法具有广阔的应用前景,能够克服单细胞转录组二代测序方法的各种局限性,将单细胞组学测序从“二”时代推进到“三”时代:(1)从一般只能测序单细胞中cDNA一端的有限信息,提升到能够测序单细胞中cDNA的全长信息;(2)从单细胞中一个基因的所有不同可变剪接产物(转录本)混合测量无法区分,提升到把单细胞中每个基因的所有不同可变剪接产物(转录本)精准分开;(3)从单细胞中一个基因的父母源表达信息混合在一起无法区分,提升到把单细胞中每个基因的父母源转录本精准分开;(4)从只能在单细胞中检测独特序列基因的转录本信息,提升到同时也能精准检测单细胞中高度重复序列的转录本信息;(5)从“一个基因,一个表型”的精度(one gene, one phenotype;人类基因组中有大约3万个基因),提升到“一种基因可变剪接转录本,一个表型”的精度(one RNA isoform, one phenotype;人类基因组中有大约30万种不同的可变剪接转录本)。总之,单细胞转录组三代单分子测序技术将揭开更多的转录组中“暗物质”的奥秘,给人类生物医学研究带来全新的发展机遇。

生物岛实验室研究员范小英、北京大学生命科学学院博士生廖雨涵和北京希望组生物科技有限公司汤冬硕士、李丕栋硕士为该论文的并列第一作者。北京大学未来基因诊断高精尖创新中心、生物医学前沿创新中心汤富酬教授与北京希望组王洋博士为该论文的共同通讯作者。该研究项目得到了国家自然科学基金委、北京市科技委和北京大学未来基因诊断高精尖创新中心的支持。

希望组作为三代测序的引领者,一直深耕三代测序领域,引进国际先进的PacBio Sequel II、ONT PromethION 48、MGISEQ2000、Bionano Saphyr光学图谱等技术平台,为科学研究和临床检测等提供多平台多水平的测序分析服务。利用单细胞结合三代测序平台,获取全长转录组信息,可为研究“一种基因可变剪接转录本,一个表型”打下夯实的基础。欲详细了解单细胞转录组三代测序服务及更多应用场景,可邮件联系sales-support@grandomics.com或联系希望组当地销售顾问。

参考文献:

  1. Tang, C. Barbacioru, Y. Wang, E. Nordman, C. Lee, N. Xu, X. Wang, J. Bodeau, B.B. Tuch, A. Siddiqui, et al. (2009). mRNA-Seq whole-transcriptome analysis of a single cell. Nature Methods, 6, 377-382.

Piovesan, A., Caracausi, M., Antonaros, F., Pelleri, M. C., & Vitale, L. (2016). GeneBase 1.1: A tool to summarise data from NCBI Gene datasets and its application to an update of human gene statistics. Database (Oxford), 2016, baw153.

Frankish, A., Diekhans, M., Ferreira, A. M., Johnson, R., Jungreis, I., Loveland, J., et al. (2019). GENCODE reference annotation for the human and mouse genomes. Nucleic Acids Res. 47, D766–D773.