基因组T2T完成图新工具丨BAC-long(>150Kb)测序技术正式推出!
2022年伊始,Nature杂志发布年度前沿技术展望,其中人类基因组T2T(端粒到端粒)完成图成为7大技术展望之首。
人类基因组T2T完成图
当Karen Miga和Adam Phillippy在2019年启动端粒到端粒(T2T)联盟时,大约有十分之一的人类基因组还没完全绘制出来,而今该数字已降至为零。该联盟2021年5月在BioRixv上发布的预印版中报道了第一个人类T2T基因组序列,有将近2亿个新的碱基对加入了广泛应用的人类基因组参考序列中,成为了一个全新的T2T-CHM13基因组版本,撰写了人类基因组计划的最终章。
从人类基因组端粒到端粒的完成图发布,到已发布的拟南芥基因组完成图,物种基因组完成图时代已经来临。
科学的进步一直伴随着技术的突破,人类基因组T2T项目的完成也不例外。近年来,长读长测序技术持续改进,陆续打破了传统的测序技术极限,成为了基因组T2T完成图组装的必备工具。其中,PacBio公司开发的HiFi测序技术,可以得到超过20Kb,准确度在99.9%以上的测序序列,成为了基因组组装领域的必备工具;ONT公司开发的Ultralong测序技术,可以将DNA测序长度扩展到N50 100Kb的极限,成为基因组T2T组装的首选技术。
但是,从人类基因组到模式生物基因组,以及逐步拓展到非模式生物基因组T2T组装,将面临更大的挑战:
1)二倍体基因组全染色体分型问题;
2)二倍体/多倍体基因组高杂合度问题;
3)超大基因组(>10Gb)带来的高重复问题;
4)超高/超长重复序列组装问题;
5)新进化产生的大片段重复(Segmental Duplications)识别问题;
6)一些复杂物种的大规模STR识别问题;
7)一些植物的高占比的着丝粒和端粒的识别问题;
这些问题的解决,也许需要采用比现有的人类基因组T2T项目更前沿的技术。
为了全面推动基因组组装进入T2T完成图时代,希望组(GrandOmics)历经近5年时间的持续研发,在逾10,000张ONT测序芯片的实战基础上,特别测试了超过1,200张超长DNA测序。在此基础上,研发出希望组自主知识产权的BAC-long(>150Kb)试剂盒,并正式面向全球提供BAC-long(>150Kb)测序服务。
测序技术里程碑——BAC-long测序
短读长组装到BAC-long组装
BAC文库构建可以插入平均150Kb的长片段DNA,是早期基因组组装的主要工具。2001年,人类基因组草图完成,国际人类基因组联盟主要采用的即是BAC-Based技术。每完成一个BAC的测序,都需要付出大量的人力、物力、时间和经费,最终整个项目整整持续了11年,花费超过了27亿美元。
2021年发布的CHM13-T2T人类基因组序列是研究者们耗时数年,利用长读长测序技术(PacBio平台的HiFi技术以及ONT平台的Ultralong(>100Kb)技术)完成的第一个零GAP人类基因组组装序列。但是,测序样本CHM13本身是加倍的单倍体,拥有几乎为零的基因组杂合度,难度远远低于普通的人类基因组二倍体,以及其他模式和非模式物种的T2T组装。
为了将真正的T2T基因组组装,从人类基因组拓展到更为广阔的领域,包括动植物基因组、农业育种、医学研究、濒危物种保护等,将T2T基因组组装树立为新的行业标准,希望组正式推出BAC-long试剂盒——直接测序即可获得近乎BAC插入片段长度,提供测序读长N50超过150Kb的BAC-long reads,从而可以让测序长度更长,更容易跨过端粒、着丝粒等复杂重复区域,在基因组组装中的表现更优越,为每个物种的基因组完成图助力。
以下为近期希望组BAC-long项目中某植物、某动物的测序reads分布图,显示reads长度更长。
想要获得基因组完成图,除了需要BAC-long reads,跨越复杂重复区域,降低基因组组装拼接难度外,还需要相匹配的完成图组装软件。希望组特地为用户匹配了NextDenovo 2.0系列组装软件,彻底解决完成图组装的后顾之忧。
敬请关注希望组升级软件NextDenovo 2.0!