希望组荣获邮储银行北京分行昌平赛区“新质创富大赛”一等奖




小麦(Triticum aestivum L.)是全球最重要的粮食作物之一。由于其基因组庞大、高度重复且为异源六倍体,导致其完整组装长期面临挑战。2018年,国际小麦基因组测序联盟(IWGSC)发布了中国春小麦参考基因组(International Wheat Genome Sequencing, 2018),成为世界范围内小麦研究应用最为广泛的参考基因组。然而,尽管该基因组极大促进了小麦基因组学研究和育种改良,后续研究通过整合多组学数据对中国春参考基因组进行了连续更新和优化,同时科学家们陆续完成了多个小麦品种的高质量基因组组装(Jiao et al., 2025; Walkowiak et al., 2020; Zhu et al., 2021),这些基因组组装仍存在大量未解析的重复区域和复杂序列结构,这仍是当前小麦基因组学研究面临的重要挑战。
本研究综合利用ONT超长读长测序(覆盖度283.56×)、PacBio HiFi高精度测序(29.01×)和Hi-C数据,实现了小麦中国春基因组的近完整组装(CS-CAU),其大小为14.46 Gb,碱基准确率大于99.9963%,仅剩290个组装间隙(主要为超长串联重复序列)。其中,1D、3D、4D、5D染色体首次实现无间隙组装,1D和5D染色体达到端粒到端粒(T2T)级别。这一突破不仅解决了小麦基因组重复序列高、多倍体复杂的组装难题,还为解析其他复杂作物基因组提供了范本。
图1. 中国春小麦基因组的近完整组装
基于近完整基因组组装,研究团队总共注释到151,405个高置信度基因,其中59,180个是新注释的基因,包括7,602个首次组装出的基因,这对小麦基因功能研究具有重要意义。通过整合RNA-seq数据集和跨物种蛋白同源性证据,首次完整解析了六类种子储藏蛋白(SSP)的基因组分布与表达特征。研究发现,ω-醇溶蛋白的表达完全由B亚基因组贡献,而其他五类SSP(α/γ-醇溶蛋白、ALP、HMW/LMW谷蛋白)的表达则主要由D亚基因组贡献,为进一步解析小麦面筋品质的遗传基础和分子改良提供了重要基础。
图2. 近完整中国春小麦的基因注释
除chr1B的着丝粒存在与超长GAA重复序列相关的间隙外,其余20条染色体的着丝粒序列也都全部组装完成。对着丝粒区序列组成进行分析表明着丝粒区域主要由逆转座子构成,其中A/B亚基因组着丝粒富含着丝粒相关反转录转座子CRW和Quinta(占比约70%),而D亚基因组着丝粒中只有30%的序列为CRW和Quinta。相似的是,串联重复序列在三个亚基因组间分布也存在高度的不均匀性,其中71.89%的简单串联重复(SSR)富集于B亚基因组,而接近一半的卫星序列(satellite)则集中于D亚基因组。此外,研究团队也对着丝粒区CRW和Quinta逆转座子的插入时间进行了解析,明确了其在三个亚基因组间的主要扩张时期。
图3. 着丝粒区域序列构成及CRW和Quinta转座子的插入时间
中国农业大学农学院玉米改良中心陈建副教授、小麦研究中心孙其信院士、倪中福教授,中国科学院遗传与发育生物学研究所傅向东研究员、鲁非研究员为该论文的共同通讯作者。中国农业大学博士后王子健和博士研究生苗凌峰为论文共同第一作者。博士研究生谭凯文对该工作的推进有重要贡献。玉米改良中心赖锦盛教授、辛蓓蓓副教授,小麦研究中心郭伟龙教授,中国农业科学院作物科学研究所贾继增研究员,澳大利亚墨尔本大学Rudi Appels教授对该工作进行了指导和帮助。该工作得到了国家重点研发计划、国家自然科学基金项目、“拼多多-中国农业大学研究基金”、新基石研究员项目和中国农业大学2115人才培育发展支持计划的资助。
原文链接:https://doi.org/10.1016/j.molp.2025.02.002
CS-CAU基因组下载路径:https://www.ncbi.nlm.nih.gov/nuccore/JBJQUP000000000.1
过去的一周中, Oxford Nanopore London Calling顺利召开,会上分享了Oxford Nanopore 产品的最新情况,引入基于Transformer的大语言模型训练了新的basecaller – V5.0.0 SUP,实现了单链读取准确度大幅提升!
ONT官方数据展示
常规马达蛋白E8.2 + SUP basecalling 模型V4.2.0,ONT下机数据碱基质量峰值可达Q22(下文用Q20指代)。
官方升级更新后:新马达蛋白E8.2.1 + SUP basecalling 新模型V5.0.0,实现ONT下机数据碱基质量峰值达到Q28(下文用Q28指代)。
希望组实测数据首发展示
以Q7为过滤标准:Q28马达蛋白+不同basecalling模型比较
Q28马达蛋白+SUP basecalling V5.0.0模型,呈现最优碱基质量均值 & peak值,迈向ONT数据交付新高度
2.Q28马达蛋白+SUP V5.0.0模型,Q10 pass reads高达96%
哺乳动物示例:不同过滤标准+不同SUP basecalling模型比较
高质量 & 高产出
Q28马达蛋白+ SUP V5.0.0模型,以Q7为过滤标准,碱基质量均值25+,pass率高达98%
Q28马达蛋白+ SUP V5.0.0模型,以Q10为过滤标准, 碱基质量均值26+,pass率高达96%
即日起希望组承诺:
以Q10为过滤标准,Q28马达蛋白 + SUP V5.0.0
人血液质检合格样本 ONT Ultra-long N50 100K交付数据量不低于20G/Cell!
3. Q28马达蛋白+SUP V5.0.0模型,Q20 reads占比高达80%
Q28马达蛋白+SUP basecalling V5.0.0模型不同Q值过滤标准下数据占比
即日起希望组承诺:
以Q20为过滤标准,Q28马达蛋白 + SUP V5.0.0
人质检合格样本 ONT Ultra-long N50 100K交付数据量不低于15G/Cell!
16S 扩增子测序:通过对特定环境中的微生物(细菌)DNA特定区域进行扩增测序,以研究微生物群落组成、物种丰度以及样本间群落组成差异情况。
细菌核糖体RNA(rRNA)按沉降系数分为3种,分别为5S、16S和23S rRNA。16S rRNA是细菌核糖体中30S亚基的组成部分,与5S rRNA、23S rRNA相比,其序列长度合适、拷贝数较高以及序列中存在有高度保守区域以及高可变区域。因而,16S rDNA 是目前最适于细菌系统发育和分类鉴定的指标。
二代扩增子测序因测序读长的限制,无法对原核生物16S中所有可变区进行测序,因此一般只能针对1-2个可变区进行测序分析和物种鉴定。部分高可变区所携带的变异信息有限,无法实现种水平的物种注释,导致二代微生物多样性通常在属及属以上的水平进行研究。而三代扩增子主要基于PacBio Revio测序平台,利用单分子实时测序(SMRT)的方法,基于HiFi模式对全长16S(V1-V9)进行测序,获取更多的高可变区信息以了解样本中的物种组成以及相对丰度等,显著提高物种注释的分辨率和准确性,更全面的反映微生物的群落结构。
全长16S扩增子的产品优势
希望组全长16S扩增子全面升级
希望组通过三重技术保障,来提高生产效率、降低生产成本、提高产品精度,从而推动三代扩增子生产的转型升级和高质量交付。
· 自动化生产线设备
希望组通过搭建一整套自动化流程生产线,可实现单日流转样本量>1000个。
· 阴性和标准品阳性质控
希望组通过每个生产批次独立匹配阴性对照和阳性对照,可以有效地监控实验过程的各个环节,确保数据的准确性和可靠性。其中阴性对照用于检测实验过程中是否存在非特异性扩增或污染,而阳性对照则用于验证实验条件和扩增效率是否正常。
· 串联建库测序流程
PacBio Revio测序平台的全长16S扩增子是基于Kinnex 16S rRNA试剂盒的方法,首先对扩增产物添加特异性barcode序列,将多样本进行混样,可混样的样本数高达384个。kinnex试剂盒还可以将1.5K大小的扩增产物短片段串联成15K以上的长片段,用这种方法构建的文库,可以适配Revio的HiFi测序模式,更具成本效益。
希望组实测数据
· 不同样本类型在不同测序深度条件下检出的物种数量
应用方向
三代全长16S测序技术的应用范围极为广泛,在基础科研、环境监测、工农业生产等领域展现其独特的优势!
01.环境检测
题目:Abundant fungi dominate the complexity of microbial networks in soil of contaminated site: High-precision community analysis by full-length sequencing
期刊:Science of The Total Environment
影响因子:IF=10.753
发表时间:2023年2月
样本类型:土壤
该研究对鞍山和台州的6个土壤样本同时进行16S、ITS全长测序以及16S V3-V4、ITS短读长测序,在高分辨率条件下解析受污染土壤中不同微生物类群的群落组成和生态状况。结果表明全长16S rRNA基因测序在所有水平上都能提供更好的细菌鉴定分辨率,在某些样品中的真菌鉴定上没有显著差异。丰富的分类群对于由全长和短读长测序数据构建的微生物共生网络至关重要。上述研究发现有助于了解土壤生态系统中的生态机制和微生物相互作用,并证明全长测序有可能提供更多微生物群落的细节。
02.工农业生产
期刊:LWT
影响因子:6.056
发表时间:2023年4月
样本类型:发酵产物
题目:Defining the biogeographical map and potential bacterial translocation of microbiome in human ‘surface organs’
期刊:Nature Communications
影响因子:IF=16.6
发表时间:2024年1月
样本类型:消化系统表面器官(腔和黏膜)和皮肤组织
研究发现与胃、阑尾、小肠或大肠相比,皮肤、口腔和食管的α多样性显著较高,胃的细菌多样性最低,推测其低pH限制了细菌的生长。拟杆菌属狄氏副拟杆菌主要富集在小肠、阑尾和大肠中;卟啉单胞菌属、普雷沃氏菌属、链球菌属和奈瑟菌属富集在口腔中;螺旋菌属在口腔和阑尾中富集;而葡萄球菌属和棒状杆菌属是皮肤中的优势属。
在科学探索的道路上,每一次突破都值得期待。PacBio Revio测序技术以其卓越的性能和可靠性,成为科研领域的璀璨明星。今天,希望组带您直面PacBio Revio 24小时与30小时测序模式的数据对比,从数据产出、reads质量值(QV)、酶读长三个方面揭示其差异与优势。
表1 PacBio Revio 24h VS 30h实测数据对比
1.数据产出
PacBio Revio 24h测序模式单cell平均产出81.58G,30h测序模式单cell平均产出108.83G,提升率超30%。相比之下,30h测序模式带来了单cell更高通量,PacBio Revio单cell数据产出超100G的cell数量占比,由24h 的16%提升至30h的82%,呈现出惊人的提升!
即日起,希望组承诺:质检合格人血液样本PacBio Revio单cell测序数据量不低于100G!
2.reads 质量值
质量值(QV)是衡量测序质量的重要指标,PacBio Revio 30h测序模式展现出更高的单cell平均质量值,相较之下,单cell平均QV值由24h Q30提升至30h Q33.6。PacBio Revio 30h测序模式能够提供更高的测序质量!
3.酶读长
酶读长直接影响测序结果,PacBio Revio 30h测序模式在酶读长方面表现也相当出色,单cell平均酶读长由24h 61Kb提升至30h 76.6Kb。PacBio Revio 30h测序模式能够为您提供更长、更完整的序列信息,提供更清晰的研究视野!
PacBio Revio测序24h VS 30h,在数据产出、reads 质量值、酶读长三方面的对比,30h测序模式表现出绝对的领先优势。即日起,希望组宣布PacBio Revio平台全面升级成30h测序模式!
选择PacBio Revio,选择科研的未来,拥有更多的可能性!让我们携手探索未知,共同揭开基因的奥秘!
近日,Nature Index官网发布了2024自然指数年度榜单(统计自2023年1月1日至2023年12月31日),希望组再度登榜,在大陆的生命科学领域中的测序企业排行榜中名列前茅。排行榜显示,希望组旗下品牌GrandOmics(希望组)和NextOmics(未来组)分别位列第17名和84名;数据合并后,希望组2023年计入自然指数的总Share为0.62,再次进入基因测序行业前3名。
希望组自成立以来一直深耕于长读长测序领域,凭借雄厚的技术积累与合作伙伴的充分信任,在基础科研领域不断有重大科研成果的产出。
2023年希望组共合作发表文章50+篇,总影响因子800+,其中包含Cell、Science、Nature Genetic、Nature Communications等高质量期刊,涵盖基因组、泛基因组、群体基因组、单细胞以及转录组等研究领域。下面让我们一起来回顾一下希望组2023年被收录到自然指数的几篇重要文章吧。
1.Cell :48Gb南极磷虾超大基因组参考序列发布
2023年3月2日,希望组与中国水产科学研究院黄海水产研究所合作在国际顶级期刊Cell (IF=66.85)上发表“The enormous repetitive Antarctic krill genome reveals environmental adaptations and population insights”的研究论文,揭示了南极磷虾适应南大洋的基因组基础,并为未来的南极研究提供了宝贵的资源。研究团队利用PacBio、Hi-C结合短读长对南极磷虾进行测序,使用NextDenovo v2.30 (https://github.com/Nextomics/NextDenovo)组装了48.01Gb的基因组,这是迄今为止报道的最大的动物基因组组装。
(解读链接:署名文章 | Cell!NextDenovo助力破译迄今最大动物基因组—48Gb南极磷虾参考序列)
2.Cell :大规模蛇基因组分析以解析脊椎动物的发育
2023年6月19日,希望组与中国科学院成都生物研究所李家堂团队在Cell (IF=64.5)上发表“Large-scale snake genome analyses provide insights into vertebrate development”的研究论文,该论文基于大规模多组学技术与基因编辑等研究手段,全面揭示了蛇类起源及特有表型演化的遗传机制,对理解脊椎动物演化历史具有重要意义。
(解读链接:项目文章 | Cell!李家堂团队揭示蛇类的起源与演化机制)
3.Science :系统基因组学分析对灵长类演化进程提供见解
2023年6月2日,希望组与浙江大学生命演化研究中心张国捷教授团队联合昆明动物研究所吴东东教授团队、西北大学齐晓光教授团队等在Science (IF=56.9)上发表“Phylogenomic analyses provide insights into primate evolution”的研究论文,该研究对14科38属的50个灵长类物种进行分析,揭示了基因组重排和基因进化的异质性,发现不同谱系中处于正向选择下的数千个基因在神经、骨骼和消化系统中发挥作用。该研究还揭示了许多关键的基因组变异发生在类人猿下目祖先节点,并且可能对其适应性辐射和人类的进化产生影响。
4.Nature Genetics :玉米T2T基因组组装
2023年6月15日,希望组与中国农业大学国家玉米改良中心、玉米生物育种全国重点实验室赖锦盛教授团队以题为“A complete telomere-to-telomere assembly of the maize genome”在Nature Genetics(IF=30.8)上在线发表了玉米全基因组所有染色体端粒到端粒完整无间隙组装结果,在复杂动植物基因组中第一个实现真正意义上的全基因组完整无间隙组装。该研究是复杂基因组组装领域工程技术研究的重大突破,攻克了复杂动植物基因组组装的最后一道难题,是基因组组装和基因组学研究的一个重要里程碑。
(解读链接:署名文章 | Nature Genetics!希望组携手赖锦盛教授团队再创新里程—大型真核生物玉米T2T无间隙基因组)
ONT平台的测序可产生>100 Kb的超长reads用于填充基因组组装中串联或高度同源的多拷贝重复区域,但其同时伴随着准确度不高的问题。使用ONT数据组装基因组,有两种常使用策略即“先矫正后组装”(CTA)和“先组装后矫正”(ATC),对于大型植物基因组在组装重复序列时,基于CTA策略通常能产生更准确和连续的组装。对此,希望组自主研发基于ONT数据进行高效纠错和CTA组装的NextDenovo 软件,用于组装出一个完整、准确的基因组。NextDenovo 软件历经多年打磨以及在动植物基因组组装中的成功应用,于2024年4月26日在《Genome Biology》发表题为《NextDenovo:an efficient error correction and accurate assembly tool for noisy long reads》的文章。
NextDenovo 包含五个主要步骤:1、对原始reads进行成对重叠;2、过滤重叠结果避免错误配对以影响纠错的准确性;3、基于过滤后的重叠结果进行纠错;4、需要两步迭代成对矫正reads重叠;5、使用重叠结果构建一个组装图,然后进行图形清理并输出结果。
图1. NextDenovo 组装流程图
在纠错速度方面,NextDenovo与 Consent、Canu 和 Necat 相比,在模拟数据上分别快 3.00 倍、7.44 倍和 1.13 倍;在真实数据上则分别快 9.51 倍、69.25 倍和 1.63 倍。
表1. ONT reads纠错统计
将NextDenovo软件与其他纠错、组装软件在4个非人类基因组(果蝇、拟南芥、水稻、玉米)和35个人类基因组的组装方面进行了比较,结果显示NextDenovo可快速、高效地对ONT数据进行纠错并产生高准确度的基因组组装,特别是对于含有大量重复序列的基因组。
图2. 35个人类基因组的De novo组装
NextDenovo 已成功多次用于大基因组组装,例如约 10.5 Gb 的苏铁(Cycas panzhihuaensis)基因组组装(contig N50 = 12 Mb)、约 10.76 Gb 的六倍体燕麦基因组组装(contig N50 = 75.27 Mb)、约 40 Gb 的非洲肺鱼基因组组装(contig N50 = 1.60 Mb)和约 48 Gb 的南极磷虾基因组组装(contig N50 = 178.99 kb)。
通过使用 ONT超长reads,NextDenovo 可以产生部分或几乎达到染色体水平的组装。在约 4.59 Gb 罂粟基因组中,NextDenovo 使用约 19X ONT超长reads和约 86X ONT常规reads组装了 contig N50 为 65.57 Mb的基因组,最长长度为 178.776 Mb ;类似地,对于 3.69 Gb 的西瓜基因组,NextDenovo 使用约 57X ONT超长reads,组装出11 条最长 contig 表示 11 条染色体;在约 10.76 Gb 的六倍体燕麦基因组中,NextDenovo 使用约 100X ONT超长reads 组装了contig N50 为 75.27 Mb,最长长度为 313.87 Mb的基因组。
总的来说,NextDenovo 是一种针对长读长的高效纠错和组装工具,它可以快速提供高度准确的纠错reads,并从这些reads中产生准确的组装。特别是当使用 ONT 的超长reads进行组装时,NextDenovo 可以生成部分或接近染色体级的组装。ONT测序具有低成本、高通量、周期快的特点,因此NextDenovo 还是一种用于群体规模的ONT长读长测序数据的优秀组装工具。
希望组一直致力于自主创新、开发优质软件以便为客户交付更优质的高质量数据用于后续的科学研究,以助力各位专家学者在基因组学领域取得更多的突破和进展!除NextDenovo外,希望组自研软件NextPolish可高效矫正三代(Nanopore 、Pacbio)下机数据组装得到基因组的单碱基错误,进一步提高单碱基准确性。该工具采用 K-mer 得分链和 K-mer 计数算法,在运行速度、校正精度及消耗资源等方面均优于同类软件,NextPolish 目前已在《Bioinformatics》 期刊正式发表《NextPolish: a fast and efficient genome polishing tool for long-read assembly》。
中国科学院北京基因组研究所(国家生物信息中心)的楚亚男博士、北京大学人民医院的在读博士生何玉坤、李冉博士、临汾市中心医院郭淑明院长、厦门大学医学院郑雅莉博士、希望组首席生信技术官胡江为该文共同第一作者,中国科学院北京基因组研究所(国家生物信息中心)康禹研究员和北京大学人民医院高占成教授为该文共同通讯作者。本研究得到了临汾软科学研究计划、国家自然科学基金和国家重点研发计划等项目的支持。希望组为本研究提供HiFi、ONT超长、Bionano测序等服务。
因此,T2T-YAO基因组有望成为汉族人群的全面代表。根据祖源分析,YAO基因组的大部分来自东亚。其Y染色体单倍群鉴定为O-F2137,是中国主要的Y单倍群O-M122的主要后代群之一。
图1 两个栽培种香蕉及其起源分析。
图2 巴西蕉和大麦蕉及其野生祖先种中抗1号和4号小种的抗性基因/QTL的比较分析。
图3鉴定果实成熟基因及其靶基因。
文章链接:https://www.nature.com/articles/s41588-023-01589-3
封面链接:https://www.nature.com/ng/volumes/56/issues/1
2023年10月22日,筹备已久的“微生物信息学学术会议暨湖北省生物信息学会——微生物信息学专委会成立大会”顺利在汉举办。此次大会是由湖北省生物信息学会主办,华中农业大学、华中科技大学、武汉希望组生物科技有限公司承办,在武汉光谷希尔顿酒店会议中心隆重召开,吸引了省内外共计170余人参与。本次大会开幕式由华中师范大学计算机学院院长蒋兴鹏教授主持,华中农业大学信息学院院长、湖北省生物信息学会理事长张红雨教授参加开幕式并致辞。
张红雨教授参加开幕式并致辞
经过民主表决,大会选举了宁康教授(华中科技大学)为专委会主任委员,蒋兴鹏教授(华中师范大学)、刘红利教授(华中科技大学同济医学院附属协和医院),熊杰研究员(中国科学院水生生物研究所)、郑金水(华中农业大学)、宋婕萍主任(湖北省妇幼保健院)、汪德鹏先生(武汉希望组生物科技有限公司)为副主任委员,大会同时选举产生了专委会秘书长和副秘书长各1名,以及委员17名,选举结束后由湖北省生物信息学会理事长张红雨教授和学会副理事长张晓龙教授、刘森教授和蒋兴鹏教授为以上人员颁发证书。
张红雨教授和张晓龙教授为当选人员颁发证书
在简短而隆重的开幕式后,在宁康教授的主持下,大会进入期待已久的学术报告环节。
宁康教授主持大会学术交流阶段
本次大会邀请了来自香港大学的张彤教授,华中科技大学的余龙江教授和宁康教授、陈卫华教授,武汉大学人民医院的童永清教授,华中农业大学的郑金水教授,复旦大学的吴浩教授,华中科技大学附属同济医学院同济医院陈旭勇医生、中国科学院水生生物研究所熊杰研究员,武汉希望组公司创始人兼CEO汪德鹏先生,北京热心肠研究院院长蓝灿辉先生,共计12位专家从微生物研究的各个前沿领域展开非常精彩的学术报告,并就产业应用和未来发展趋势等议题展开深入讨论。
在经过一天的热烈学术讨论和交流后,中国生物信息学会(筹)核心组专家、浙江大学陈铭教授作会议总结讲话。陈铭教授首先对本次大会的成功举办表示祝贺,对本次大会的成效和收获表示肯定,并鼓励微生物信息学专委会在未来面向社会更多的群体,开展更多的学术活动,为微生物信息学及相关学科的发展做出更大贡献!
陈铭教授作会议总结讲话
参会人员合影
希望组对参与此次微生物研究领域的学术盛宴合作感到非常荣幸。我们期待与各位专家、合作伙伴和志愿者们共同努力,推动微生物领域的创新,为人类的健康和环境保护作出更大的贡献。再次感谢所有参与此次会议的人员,以及组织者和支持单位的辛勤付出和卓越贡献!