Nature Reviews|突破黑暗——长片段测序技术的应用优势及其生物信息学算法

长读长测序和远距离映射技术的发展促进了物种参考基因组质量的提高,同时也为转录组学和表观遗传学研究提供了新的方法,使复杂结构变异鉴定成为可能。与此同时我们也需要开发新的生物信息学方法,以期达到对测序数据的高效利用。近期在Nature Reviews上发表的一篇综述文章讨论了当下流行的几种基因组学研究方法的主要应用方向,并重点关注当前适用的一些生物信息学分析工具[1]

二十世纪中后期,高通量的二代测序技术的发展降低了测序费用,实现了人们对基因组多样性、病原体变异及转录组、表观组和基因调控等的进一步研究。但是二代测序的短读长劣势,也限制了其对基因组中的重复序列和复杂结构变异等的鉴定。同时,文库构建过程中人为引入的错误也是二代测序技术面临的一大问题。

新近发展起来的基因组学技术如长读长测序技术PacBio SMRT和Oxford Nanopore(平均读长超过10kb,最长可达1Mb)、长片段测序技术Bionano、Hi-C及10X Genomics技术等可解决复杂基因组中的重复序列、微卫星序列及其他复杂的结构变异等问题。Table 1列举了这些新技术的主要应用方向。

新的数据类型催生了新的适用于其的生物信息学算法,文章中列举了基于这些新基因组学数据的大量实用分析软件。当前,新的生物信息分析工具已经结合新技术在很大程度上提高了我们对基因组的认识:

>>>>

基因组de novo组装

复杂重复片段、高杂合、测序错误、覆盖不足或偏向性等问题是基因组组装中的重难点,其中,重复片段是最难克服的一环。基于二代短读长测序极有可能会导致拼接错误。基因组de novo组装是长读长测序的一个重要应用方向——它们解决了基于二代短读长技术所不能解决的复杂重复片段及偏向性等问题。同时结合Bionano光学图谱技术等可进一步提高基因组组装质量。

>>>>

染色体scaffolding和空白填补

新技术的加入填补了许多基于一代或二代测序技术得出的参考基因组中的许多空白(如玉米、果蝇和蚊子基因组等),并进行纠错,获得了更为完善的物种基因组。与contig不同,scaffold序列含N碱基,如何确定contig的正确顺序和方向是scaffolding的难点。使用染色体构象捕获技术(Hi-C)、10X Genomics技术及光学图谱技术(Bionano)可以有效地辅助构建scaffold。例如,山羊和人的基因组组装就结合了长读长测序技术和Hi-C技术,contig N50分别达到了18.7 Mb和26.8 Mb,scaffold N50分别为87Mb和60.0Mb。

Fig.1 PacBio+Bionano组装结果与参考序列hg19比较 [2]

>>>>

复杂结构变异鉴定及分析

染色体结构变异(SVs)包括缺失、插入、重复、倒位和转座几种类型,变异区段通常大于50bp。SVs与人类健康和疾病有密切关系。过去的SVs分析通常基于短读长的测序技术,然而由于读长限制,二代测序技术对SVs的鉴定存在较高的错误率,且灵敏度较低。可喜的是,新一代的长片段测序技术为SVs的鉴定提供了新的可行性方法——与二代技术相比具更高的灵敏度和更低的错误率。

Fig.2 基于Illumina、PacBio和Oxford Nanopore的测序数据中的结构变异分析的比较

>>>>

单倍型及等位基因特异性分析

许多真核生物,包括高等动植物,其基因组往往含有不只一个拷贝的染色体组。鉴别母本和父本的基因型有利于区分复合杂合子和半基因突变,以及等位基因特异性表达等。使用测序技术直接获取个体的单倍体信息具有很大的研究价值。如Fig.3所示,当测序reads足够长,即能够跨越杂合子变异区而实现对单倍体的有效phasing。但实际上通常由于读长限制、测序错误及测序覆盖深度的波动导致变异的错误引入和真实变异的缺失。

Fig.3 长reads对单倍体的phased示意图

通过短读长测序技术获得的Phased block N50基本在1kb左右,而经长读长的PacBio和Oxford Nanopore测序获得的Phased block N50可达到100kb~500kb;由10X Genomics技术获得的Phased block N50已超过10Mb;基于Hi-C的长距离测序技术理论上甚至可以Phased到整个染色体——这些长片段测序技术的发展促进了单倍型的鉴定和分析。

>>>>

Isoform鉴定及基因定量

真核生物中的可变剪接是增加蛋白质多样性的重要机制。在果蝇中,性别特异性基因dsx的不同的剪接形式甚至决定了果蝇的性别;而在人体内,据估计有95%的多外显子基因都表现出不同的可变剪接形式,以此构成了人体中复杂的转录本。

RNA-Seq技术虽然可以实现对转录本的表达定量,但由于其读长限制,无法准确解析真核生物中复杂的Isoform结构。而三代长读长测序技术——PacBio和Oxford Nanopore测序技术可以显著地提升对Isoform结构的鉴定。无论是cDNA测序还是direct RNA测序,都可以直接得到转录本全长,直观地展示转录本结构。

Fig.4 长读长测序发现的新的Isoform类型示例

>>>>

表观修饰的直接检测

表观修饰是生物体基因表达调控机制中的重要一环,长片段测序技术实现了对表观修饰尤其是甲基化修饰的直接检测分析。目前研究较为广泛的甲基化修饰机制主要是6mA及5mC。先前对5mC的主要检测方法是基于短读长的亚硫酸氢盐测序法,该方法具有较高的偏好性。而长读长的PacBio和Oxford Nanopore测序技术可以直接对天然DNA进行测序,减少了人为引入的错误因素,更真实地还原DNA链上的甲基化修饰现象。

Fig.5 单分子测序法检测甲基化核苷酸。(A)基于PacBio Sequel的甲基化修饰检测原理图;(B)基于Oxford Nanopore甲基化修饰检测原理图

基于PacBio的 BaseMods软件根据测序过程中聚合酶引入核苷酸的速度——脉冲间隔的持续时间(IPD)来判断是否存在甲基化修饰(Fig. 5Aa、Ab)。Nanopolish和SignalAlign则是基于Oxford Nanopore的甲基化检测软件,通过分析非甲基化和甲基化核苷酸引起的电流信号变化来判断发生甲基化修饰与否(Fig.5 B),随后,利用隐马可夫模型(HMM)分析该修饰是发生在胞嘧啶还是腺嘌呤上。此外,最新的研究表明Oxford Nanopore技术甚至可以直接检测RNA分子上的甲基化修饰。

多组学技术结合对于结果分析更有利,这也就意味着我们需要更加灵活的生物信息分析工具。文章还指出了这些长片段测序技术在应用过程中所面临的一些生物信息学分析挑战(Table 2)。

新兴的长片段测序技术和映射技术结合适当的生物信息学算法,将在很大程度上提高基因组、转录组以及表观组的数据质量,为人们提供更全面的基因组学信息,有望更完整、更准确地展现基因形式,实现对基因调控区域及其他重要元件的准确识别,并提高对等位基因特异性的鉴定,在科研及临床医学领域都具有不可估量的应用前景。

武汉未来组拥有PacBio Sequel、Oxford Nanopore、Bionano光学图谱及Hi-C染色体构象捕获等技术和平台,拥有丰富的三代测序项目经验,旨在为广大合作伙伴提供优质、快捷的基因组转录组测序组装分析服务。

参考文献

[1] Sedlazeck F J, Lee H, Darby C A, et al. Piercing the dark matter:bioinformatics of long-range sequencing and mapping[J]. Nature ReviewsGenetics, 2018: 1.

[2] Pendleton M, Sebra R, Pang A W C,et al. Assembly and diploid architecture of an individual human genome via single-molecule technologies[J]. Nature Methods, 2015, 12(8):780.

图片来源于网络|侵删

昆虫之“最”和它们的基因组学研究

昆虫种类繁多,世界上已记录的昆虫有100多万种(其中有害昆虫八万余种),是目前最大的未被充分利用的宝贵资源。昆虫是动物界中最大的一个类群,在所有生物种类中占比超过50%,它们的踪迹几乎遍布世界的每一个角落。

有研究认为昆虫最早起源于距今~479 Mya的奥陶纪,现存的昆虫谱系大多起源于距今~345 Mya的密稳纪,而昆虫主要的多样性分化则出现在白垩纪时代[1]

对人类健康危害最大的昆虫——蚊

蚊子属于双翅目蚊科,世界上约有3000种。是一种具有刺吸式口器的纤小飞虫。通常雌蚊以血液作为食物,而雄蚊则吸食植物的汁液。吸血的雌蚊是登革热、疟疾、黄热病、丝虫病、日本脑炎等其他病原体的中间寄主。蚊子的分布极为广泛,除南极洲外各大洲皆有蚊子的分布。其中,以按蚊属、伊蚊属和库蚊属最为著名。

相关研究▕疟疾载体——达氏按蚊的基因组研究[2]

按蚊是最主要的疟疾传播载体,在美洲每年由按蚊引起的疟疾有数百万例。研究者对从Coari、AmazonasState和Brazil获得的野生按蚊进行培养,并对其F1代按蚊进行DNA测序,组装出了达氏按蚊基因组。

Fig.1 达氏按蚊与冈比亚按蚊、伊蚊、库蚊和果蝇属的进化关系

研究中共预测了10481个蛋白质编码基因,其中,72%的基因与冈比亚按蚊最接近,21%与其它蚊种相似性较高。尽管经过很长一段时间的不同的进化过程(Fig.1),但研究者还是在达氏按蚊和冈比亚按蚊之间发现了保守的基因共线性现象(Fig.2)。

Fig.2达氏按蚊、冈比亚按蚊和果蝇的基因结构比较

文章还发现了达氏按蚊中大量的SNP位点及转座元件,确定并讨论了直接参与载体-人类和载体-寄生虫之间相互作用的与吸血、免疫和杀虫剂抗性相关的基因。

对农业危害最大的昆虫——蝗虫

蝗虫属直翅目,全世界有超过10,000种,广泛分布于热带、温带的草地和沙漠地区。蝗虫主要包括飞蝗和土蝗。在我国飞蝗有东亚飞蝗、亚洲飞蝗和西藏飞蝗3种,其中东亚飞蝗在我国分布范围最广,危害最严重,是造成我国蝗灾的最主要飞蝗种类,主要危害禾本科植物。全世界常年发生蝗虫的面积达4,680万km2,全球1/8的人口经常受到蝗灾的袭扰。

相关研究▕ 基因组信息揭示蝗虫与飞行和植食性相关的基因家族扩张[3]

在目前已完成测序的昆虫基因组中,最大的为东亚飞蝗,别看它身材小巧,基因组却高达6.5Gb,是人类基因组的2倍。研究发现东亚飞蝗基因组中存在大量的重复序列(至少60%),且这些序列的丢失频率明显比其他昆虫少很多,这是造成其庞大基因组的主要原因。

Fig. 3 迁移飞行过程中与能量消耗有关的基因的扩张

研究者通过基因组比较分析发现东亚飞蝗基因家族的扩张与迁移飞行过程中的能量消耗及其化学感应和消毒机制有关,这些扩张有利于飞蝗长距离飞行及植食性。这项研究揭示了蝗虫长距离飞行能力和植食性的基因组基础。

此外,对东亚飞蝗的甲基化和转录组研究分析发现了在蝗虫变相过程中的复杂的分子调控机制。

最浪漫的昆虫——萤火虫

萤火虫属鞘翅目萤科,是一种小型甲虫。因其尾部能发出荧光,故名为萤火虫。全世界约2000种,分布于热带、亚热带和温带地区,我国较常见的有黑萤、姬红萤、窗胸萤等几种。

萤火虫可以利用荧光的闪烁节奏形成特定的闪光信号,主要用来吸引异性交尾,偶尔也起一定的警戒作用。这种行为与蟋蟀鸣叫,蝴蝶起舞等类似,都可归为求偶行为,因为场面过于浪漫,被人们赋予更多诗意。

相关研究▕ 比较基因组学研究揭示萤火虫荧光素酶基因的起源与进化[4]

为了揭示萤火虫荧光素酶基因的遗传基础及其起源、进化过程,Timothy R. Fallon等人用PacBio+Illumina+Hi-C多技术结合的策略组装出了高质量的北斗七星萤火虫(Photinus pyralis,Lampyrinae亚科)基因组,解决了其中与荧光素酶基因相关的串联重复序列。同时,研究者还对日本萤火虫(Aquatica lateralis,Luciolinae亚科)和发光磕头虫(Ignelater luminosus,叩甲科)进行Illlmina基因组测序并完成组装。通过对这三个荧光甲虫进行比较基因组学和转录组分析,对发光甲虫的发光和化学防御机制在近1亿年来的进化历程提出了新的见解。

Fig.4 萤火虫荧光素酶基因进化模型

通过基因组和转录组比较分析,研究者绘制了萤火虫荧光素酶基因进化模型(Fig.4):串联基因的复制产生了PACS的几个旁系同源基因,其中一个新功能化成为萤光素酶祖先基因(AncLuc)。AncLuc原位产生了Luc1,而Luc2则可能是在1亿年前AncLuc发生了远程基因复制事件形成的;随后发生基因重排从而产生了萤火虫的两个亚科——Lampyrinae亚科和Luciolinae亚科。

此外,研究者还利用RNA-Seq技术对三种发光甲虫不同性别、不同组织部位、不同发育时期的基因表达进行了解析,分析了在荧光素酶代谢过程中起关键作用的基因。

对遗传学研究贡献最大的昆虫——果蝇

果蝇广泛地存在于全球温带及热带气候区,目前发现有至少1000种,在人类的栖息地内如果园,菜市场等地区内皆可见其踪迹。

果蝇只有四对染色体,数量少而且形状有明显差别;果蝇性状变异很多,比如眼睛的颜色、翅膀的形状等性状都有多种变异,这些特点对遗传学研究也有很大好处,是很常用的遗传学研究材料。

相关研究▕ 低覆盖长读测序法快速组装果蝇参考基因组[5]

研究者使用黑腹果蝇D.melanogaster (ISO1)基因组DNA在OxfordNanopore MinION掌上测序仪上测序1个flowcell,以其中长度在1kb以上的reads(测序深度约30×)与二代数据结合进行混合组装,加上Bionano光学图谱数据辅助scaffolding,获得高准确度、高连续度和高完整度的黑腹果蝇基因组:Scafold N50 =21.3 Mb,BUSCO评估97.1%。

Table 1 基因组组装结果

通过与参考基因组进行比较,揭示了黑腹果蝇中的大量结构变异,包括与发育、行为、代谢基因相关的novel LTR 转座元件的插入和复制等,这些结构变异有助于研究后生动物基因组进化。

最顽强的昆虫——蟑螂

蟑螂是属于蜚蠊目的昆虫,世界上约有6000种,主要分布在热带和亚热带地区。少数蟑螂会入侵人类家居,大部分则是生活在野外。家居最常见的蟑螂,大的有美洲蟑螂、澳洲蟑螂及短翅的斑蠊,身长约5.0cm;小的有德国蟑螂、日本姬蠊及亚洲蟑螂,体长约1.5cm,热带地区的蟑螂一般体型比较巨大。

相关研究▕美洲蟑螂基因组——揭示环境适应性的遗传学基础[6]

美洲大蠊是一种杂食性食腐动物。它生长速度快、繁殖能力强,而且具有组织再生能力,因而能够在城市环境中生存。美洲大蠊的摄食范围特别广,这也是它们适应多种食物来源的基础。美洲大蠊能通过一个非常复杂的解毒酶系统解毒,而这正是它们能抵抗各种化学毒素和病原体的主要原因。

中科院植物生理生态研究所詹帅研究组与合作者对美洲大蠊进行了基因组测序, 并在基因组水平分析蟑螂的环境适应性的遗传学基础。

Fig.5 美洲大蠊和其他蜚蠊中参与化学接收和解毒的基因家族

研究者将目光聚焦在美洲大蠊与环境适应性相关的基因家族的分析上,并分析与化学吸收、解毒和免疫有关的信号通路。研究发现美洲大蠊中与化学感受和解毒相关的基因家族都发生了大规模扩张,这大大增加了其对城市环境的适应性(Fig.5)。

此外,研究人员还鉴定出了参与发育和再生的信号传导路径。美洲大蠊有望作为开展蟑螂的生物学研究的模式系统。同时,这项研究也能为美洲大蠊的防治提供一些思路。

昆虫家族如此庞大,其中之“最”远远不只于此,以上列举的仅仅是沧海一粟,更多的昆虫故事可以查阅相关文献资料,以下是近年发表的昆虫基因组文献

已发表昆虫基因组文献汇总表

参考文献:

[1] MisofB, Liu S, Meusemann K, et al. Phylogenomics resolves the timing and pattern ofinsect evolution.[J]. Science, 2014, 346(6210):763-767.

[2] Marinotti O, Cerqueira G C, Almeida L G P D,et al. The Genome of Anopheles darlingi,the main neotropical malaria vector[J]. Nucleic Acids Research, 2013,41(15):7387-400.

[3] Wang X, Fang X, Yang P, et al. The locustgenome provides insight into swarm formation and long-distance flight.[J].Nature Communications, 2014, 5(5):2957.

[4] Fallon T R, Lower SE, Chang C H, et al.Firefly genomes illuminate the origin and evolution of bioluminescence[J].bioRxiv, 2017: 237586.

[5] Solares E A, Chakraborty M, Miller D E, etal. Rapid low-cost assembly of the Drosophila melanogaster reference genomeusing low-coverage, long-read sequencing[J]. bioRxiv, 2018: 267401.

[6] Li S, Zhu S, Jia Q, et al. The genomic andfunctional landscapes of developmental plasticity in the American cockroach[J].Nature communications, 2018, 9(1): 1008.

图片来源于网络|侵删

利用PacBio三代测序技术获得模式植物拟南芥的全基因组6mA修饰图谱

未来组项目经验

2018年4月,未来组携手中国农业科学院生物技术研究所谷晓峰研究组和新加坡国立大学生物系及淡马锡生命科学研究所俞皓研究组合作在Developmental Cell杂志发表了题为“DNA N6-Adenine Methylation in Arabidopsis thaliana”的研究论文,利用PacBio三代测序技术获得模式植物拟南芥的全基因组6mA修饰图谱,解析其分布模式和潜在功能。

研究概述

研究人员首先使用Dot blot方法检测了在拟南芥不同组织和不同发育时期的6mA修饰水平,后续选择D9和D21的样本进行三代PacBio SMRT全基因组测序,比较两个时期拟南芥6mA修饰的分布模型和动态变化,并结合转录组信息更深入地研究6mA潜在功能。

Highlights

  • 6mA修饰在拟南芥基因组内广泛存在
  • 与基因间区相比,6mA在 gene body区更丰富
  • 在拟南芥发育过程中,6mA修饰是动态的
  • 6mA与拟南芥中活跃表达的基因相关联

 

研究结果

6mA修饰在拟南芥基因组内广泛存在

研究人员首先使用Dot blot方法检测了在拟南芥不同组织和不同发育时期的6mA修饰水平,发现在这些样本中都广泛存在不同程度的6mA,其水平随着个体发育的进程逐渐增加,在D21出现了急剧上升。

Fig.1Dot blot方法检测拟南芥不同组织和不同发育时期的6mA修饰水平

使用PacBio SMRT测序获得拟南芥全基因组6mA图谱

Fig.2 链特异性的6mA修饰信息

以D9样本示例,PacBio SMRT测序深度经计算为103×,高于PB官方推荐的测全基因组甲基化的要求100×。通过测序时两个脉冲荧光信号之间的间隔时间评估该位点的甲基化程度(Fig.2),最终获得了链特异性的D9全基因组6mA信息(Fig.3A)。实验结果表明,在包含线粒体、叶绿体和核基因组中所有的29,811个腺嘌呤中,发生6mA碱基修饰的比例为0.04%,与LC-MS/MS实验中评估的0.048%吻合,并且发现在越靠近着丝粒区域表现出越高的6mA丰度和轻微降低的平均甲基化水平(Fig.4)。

Fig.3D9 (A)和D21 (B) 拟南芥全基因组6mA图谱

Fig.4 6mA丰度和水平在染色体臂上的分布情况

6mA分布模式解析

通过评估6mA在基因组内不同的区域(Exon、Intron、5’UTR、3’UTR区,Fig.5A)和位处基因的不同类型(Protein coding、miRNA、snoRNA等,Fig.5 B、C)分析6mA的分布模型得知:与基因间区相比,6mA gene body区更丰富(Table 1)。

Fig.5 6mA分布模式解析(D9)

在拟南芥发育过程中,6mA修饰是动态的

通过比较D9和D21拟南芥全基因组6mA分布图谱(Fig.3)、overlap关系(Fig.6)、分布模式的区别(Fig.5、7),可以得知在拟南芥发育过程中,6mA修饰是动态变化的,在位点、程度上都有明显的区别。

Fig.6 D9和D21拟南芥基因组中6mA分布比较韦恩图

Fig.7 6mA分布模式解析(D21)

Fig.8示例了2个基因在D9和D21两个发育阶段不同的6mA修饰位点。D21比D9拥有更多的6mA修饰位点。也支持了在拟南芥发育过程中,6mA修饰是动态变化的。

Fig.8 2个基因在D9和D21两个发育阶段不同的6mA修饰位点示例

6mA与拟南芥中活跃表达的基因相关联

通过将6mA修饰位点及程度与来自RNA-seq的基因表达信息结合分析,结果表明6mA与拟南芥中活跃表达的基因相关联。

高表达基因的TSS上下游2.5kb区域内有更多的6mA修饰位点(Fig.9 A、B),高表达的基因有更多的6mA修饰位点(Fig.9 C、D),被6mA修饰的基因比未修饰的基因表达水平显著增高(Fig.9 E、F),并且靠近TSS时,差异更明显。

Fig.9 6mA修饰与RNA数据关联分析

这篇论文是国内发表的首篇基于PacBio单分子测序技术进行真核生物6mA修饰分析的研究成果,揭示了拟南芥中6mA修饰的发生规律,并为研究陆生植物碱基修饰的分布模式和潜在功能提供基础。武汉未来组凭借丰富的三代测序项目经验在为该项目提供PacBio测序服务并参与分析。

其它真核生物6mA研究高分文章(三代测序直读):

线虫

6mA甲基化对跨代遗传的影响

Greer, E.L. et al. DNA methylation on N6-adenine in C. elegans. Cell 161, 868–878 (2015).

小鼠

6mA在哺乳动物中可影响基因沉默

Wu, T.P. et al. DNA methylation on N(6)-adenine in mammalian embryonic stem cells. Nature 532, 329–333 (2016).

真菌

从多种真菌三代基因组测序数据中挖掘甲基化信息

Mondo, S.J. et al. Widespread adenine N6-methylation of active genes in fungi. Nature Genetics (2017).

延伸阅读

NanoMod 发布,适配于纳米孔测序数据的碱基修饰检测工具

参考文献

Liang et al., DNA N6-Adenine Methylationin Arabidopsis thaliana, Developmental Cell (2018)

图片来源于网络|侵删

Nanopore混测1cell,一次性解决12个细菌完成图,送质粒

从三代PacBio长读长测序应用全面市场化后,在基因组学领域从量变突破到质变的一个应用,非细菌基因组完成图莫属。随着平台机型从RS→RSⅡ→Sequel的更新换代以及试剂版本的升级,使得测序数据的读长和通量不断上升,让细菌完成图产品不断成熟完善,价格也早已跌破万元,奠定了PacBio在单菌基因组完成图领域的不二选择。

如果想要一次性测很多个菌怎么办?

2017年9月在 Microbial Genomics 发表的一篇将纳米孔测序技术(Oxford Nanopore)应用到细菌混测的实例中,解决了之前基于二代Illumina测细菌基因组结果中充斥着gaps、N碱基,成不了完成图的问题。

该研究在一个flowcell中混测了12个不同种的克雷伯氏肺炎菌,与前期二代数据混合组装,既保证完整性,又保证base准确性,最终将它们都组装成了完成图,并且有7个样本组装出了所有的质粒(其它5个样本组装出部分质粒)。

该研究中价格比较:

Illumina:80 USD /sample

ONT:950 USD/ 12 Samples

实验流程

1.DNA 提取

2.12个样本分别加barcode(native barcoding expansion kit (EXP-NBD103))

3.12个样本等量混合

4.加测序接头,按照1D模式建库(1D ligation sequencing kit (SQK-LSK108))

5.Nanopore MinION上机1个flowcell(R9.4)

实验结果

>>>>数据评估

base calling后,共产出10.48 Gb ONT 数据,经过拆分barcode后,获得6.87 Gb数据用于组装,拆分率约为65.5%。

去掉接头和barcode序列后,reads N50为22.9Kb,长读长测序有助于提高组装的连续性。

测序数据在12个菌种间分布并不算均匀,覆盖深度从16×到308×(Fig.1),可能是因为混测个数过多以及barcode拆分效率等导致。

>>>>组装评估

使用Unicycler对ONT数据和Illumina数据进行混合组装,将12个样本都组装成完成图,并且其中7个样本中所有的质粒同时被组装完整。

Figure Illumina单独组装和ONT、Illumina混合组装12个克雷伯氏菌圈图及质粒对比

本方法1个ONT flowcell混了12个细菌,结合二代数据混合组装,全部获得基因组完成图,经济适用并高效。

这种加barcode混测的策略,只能针对可分离培养的菌种。

参考文献

WICK, Ryan R., et al. Completing bacterial genome assemblies with multiplex MinION sequencing. Microbial genomics, 2017,3.10.

图片来源于网络|侵删

NBT丨Y染色体着丝粒序列解析完成的一小步,人类基因组完成图历史上的一大步

随着测序技术的进步,数十年来人类基因组的研究得到了长足的发展,耗费的人力物力不断下降,组装的连续性和完整度不断提升,但仍有不少区域未得到充分解析,例如着丝粒、端粒等串联重复序列,这些区域往往被认为与细胞分裂、细胞周期、疾病等密切相关。

2018年3月,Nature Biotechnology 在线发表了一篇通过对BAC文库进行纳米孔(Oxford Nanopore)长读长测序,绘制人类Y染色体着丝粒区域线性DNA序列的方法学文章,解析了该区域长达数百kb的串联重复,不仅有助于了解着丝粒的进化和功能,更是为通过单分子测序的方法实现人类基因组完成图提供一种新思路。

具体实施步骤

1.建库测序

对目标区域(人Y染色体着丝粒DYZ3区)的环形BAC (https://bacpacresources.org/)使用转座子酶进行1次打断,形成线性DNA后加上测序接头,在Oxford Nanopore MiniION平台进行全长BAC DNA测序(R9.4,RAD002)。

Fig.1基于Nanopore的全长BAC DNA建库测序示意图

2.数据产出

每个BAC run产出数据读长分布见Fig.2, 从10个BAC文库(8个目标位点,2个对照)中,获得了>3500条全长1D reads。每个BAC产出的总数据量、全长比例和一致性序列长度见Table 1。

Fig.2 10个BAC 产出数据读长分布

  1. consensuspolishing和定位、定向

通过评估对照组的数据得知原始1D数据单碱基准确度为84.8%。经过一步consensus和polishing后得到高准确度的一致性序列(Fig.3 B、C),将全长reads比对到每个BAC的consensus reads,对照组准确度为99.2%,其它BAC为99.4–99.8%。

Fig.3数据一致性比对、polishing以及序列变异检测策略

在前一步提高序列准确度后,使用Illumina MiSeq对BAC进行了resequencing,实施了2种变异检测:(1)K-mer method和(2)Alignment metod (Fig.3 D),通过变异检测结果帮助对BAC序列进行定位和排序,例如Fig.3 D右侧圈图以209 kb 长的RP11-718M18示例,使用8个BAC-polished序列,按照从p-arm到q-arm的顺序拼接完整的该区段的序列。

4.组装结果

从8个BAC的Nanopore测序数据中,组装出了完整的人类Y染色体着丝粒区域:365Kb的α-卫星DNA序列。它包含着一段由5.8Kb的序列串联重复而形成的长达301Kb的特殊序列(Fig.4),包含52个higher order repeats(HOR),其中有7段6.0Kb长的HOR结构变异(Fig.4 紫色)。能通过4种常见的单核苷酸多样性而划分形成的9种单体型(Fig.5)。至此,人类Y染色体着丝粒区域DNA序列得到完整解析。

Fig.4 基于Nanopore的全长BAC DNA测序,构建人类Y染色体着丝粒DYZ3区

Fig.5CENY haplotype groupings

5.进一步研究着丝粒的进化和功能

研究人员后续对人类和其它一些类人猿种类的Y染色体着丝粒区域进行了荧光原位杂交(FISH)比对分析(Fig.6)、组蛋白表观修饰分析(Fig.7)等,以期更深入研究着丝粒的进化和功能。

Fig.6The Y centromere location is not shared among the great apes.

Fig.7Epigenetic characterization of the Y Centromere

研究人员在这篇论文中实现了利用BAC+Nanopore测序的方法获得完整的人类Y染色体着丝粒DNA序列(串联重复卫星DNA),比以往的研究更完整、更精细,对序列的顺序好和方向有了更准确的判断,为进一步研究着丝粒的进化和功能以及实现人类基因组完成图提供一种新思路,这也是Nanopore多变应用策略的一个体现。

参考文献

[1]Jain M, Olsen H E, Turner D J, et al. Linear assembly of a human centromere on the Y chromosome[J]. Nature biotechnology, 2018.

延伸阅读

里程碑丨Nanopore测序组装人类基因组终见刊NBT

新技术结合多组学,初迈基因组完成图新时代

Nanopore测序揭露线虫基因组中复杂串联重复序列

未来组–中国首家通过Nanopore官方测序服务认证

Nature methods丨基于Nanopore的direct RNA测序方法

NanoMod 发布,适配于纳米孔测序数据的碱基修饰检测工具

DNA碱基修饰在DNA复制起始、错配修复、细菌中寄主控制的修饰与限制以及转座子的失活等过程中对维持遗传信息的稳定性发挥着重要的作用。目前检测DNA甲基化的常规方法是亚硫酸氢盐测序法等,近年来三代单分子测序技术的发展也让通过测序实时读取DNA碱基修饰信息成为可能(PacBio 通过荧光信号出现的间隔时间识别[1],Nanopore通过特征性电流变化识别[2])。

从Nanopore数据中识别碱基修饰,难度比PacBio大,对算法拟合的精确度要求更高。为了提高碱基修饰信息识别的准确度,未来组首席科学家王凯老师课题组开发了一种新的计算工具——NanoMod,关于NanoMod的测评分析文章已经预印(bioRxiv,2018)[3]。以下是文章内容简单介绍。

Fig.1 NanoMod工作流程图

研究中使用NanoMod软件处理两组有碱基修饰和无碱基修饰的DNA样本的原始信号数据(Nanopore raw data),提取信号强度,基于参考序列执行碱基校正(Fig. 2),然后通过对比两个样本的原始信号分布鉴定修饰碱基(“邻域效应”)。

Fig.2基于NanoMod的缺失错误校正(A);基于NanoMod的插入错误校正(B)

研究者在基于不同的碱基修饰类型和不同程度的邻域效应的模拟数据集上评估NanoMod,发现NanoMod在识别已知碱基修饰方面优于其他方法。此外,研究者还展示了NanoMod在E.coli数据集中鉴定5-mC(5-甲基胞嘧啶)的优越性能(Fig. 3)。

Fig.3 使用NanoMod对E.coli进行DNA修饰分析
(DS1代表非甲基化样本,DS2代表甲基化样本)

相比于现存的一些基于Nanopore测序数据的DNA修饰检测工具,NanoMod的优势在于不需要大量的training data和后续的补偿算法即可完成对DNA修饰的检出,真正实现对DNA修饰的de novo检测。

总之,NanoMod是一种可用Nanopore测序的原始信号实现以单碱基分辨率检测DNA修饰的灵活工具,这将大大促进基于核苷酸修饰的大规模功能基因组学研究的发展,同时也体现了Nanopore测序技术在功能基因组学研究中的应用价值。

未来组自2017年9月开始逐步搭建Nanopore测序平台,并于2018年1月17日通过Oxford Nanopore Technologies Limited(牛津纳米孔技术有限公司,ONT)官方认证,获得Nanopore官方资格认证的测序服务供应商。我们拥有丰富的基因组学测序项目经验,针对特定项目,对分析流程进行优化,以期为不同领域的研究者提供更为完善的解决方案。

参考文献

[1] Flusberg B A, Webster D R, Lee J H, et al. Direct detection of DNA methylation during single-molecule, real-time sequencing[J]. Nature methods, 2010, 7(6): 461. 

[2]Schatz M C. Nanopore sequencing meets epigenetics[J]. Nature methods, 2017, 14(4): 347.

[3]Liu Q, Georgieva D C, Egli D, et al. NanoMod: acomputational tool to detect DNA modifications using Nanopore long-read sequencing data[J]. bioRxiv, 2018: 277178.

图片来源于网络|侵删

Oxford Nanopore + Hi-C:高质量墨兰参考基因组(4.25G,杂合度~1.5%,重复序列高达89%)

3月23日上午,在第28届中国(翁源)兰花博览会开幕式上,“墨兰基因组与国兰形态的进化”科研成果向公众隆重发布。中国兰花协会副秘书长张引潮,翁源县县长陈来安,广东省农业科学院环境园艺研究所所长朱根发,深圳市兰科植物保护研究中心主任刘仲健,台湾成功大学蔡文杰博士出席了发布会。

IMG_256

Cymbidium sinense

墨兰(Cymbidium sinense)染色体数目为2N=2X=40,基因组大小为4.25G,杂合度约1.5%,属于高杂合复杂基因组。墨兰基因组重复序列高达89%,使得墨兰比目前所有已测序的兰科植物基因组都大[1],如此庞大和复杂的基因组,让绘制墨兰基因组图谱困难重重。

2017年1月,广东省农科院环境园艺研究所、深圳市兰科植物保护研究中心、华南师范大学等单位联合组成攻关团队,启动了广东省自然科学基金研究团队项目“墨兰花分化与发育的分子调控机理研究”,开展了“墨兰基因组项目”。终于在2018年初,共同完成墨兰基因组测序项目武汉未来组凭借自有的Oxford Nanopore技术平台和丰富的三代基因组组装经验,为该项目提供了技术支持,最终组装结果:Oxford Nanopore+Hi-C:Contig N50=200K,Scaffold N50=159M。预测的蛋白编码基因数量29895个。其组装结果明显优于2017年在《Nature》杂志上发表的深圳拟兰基因组(Apostasia shenzhenica,Genome Size=349 Mb,Contig N50=80.1kb,Scaffold N50=3.029M)[2]。

IMG_257

墨兰(Cymbidium sinense)

IMG_258

深圳拟兰(Apostasia shenzhenica)

兰科(Orchidaceae)是植物界种类最丰富的家族之一,约有3万种,占全世界有花植物种类的10%。兰科植物进化程度高,是生物多样性研究和进化研究的理想植物,具有极高的科研、生态、观赏、文化和药用价值。兰科约有700属20000种,多产于全球热带地区和亚热带地区,少数种类也见于温带地区。兰花是中国十大名花之一,中国有171属1247种以及许多亚种、变种和变型。其中,墨兰又称“报岁兰”,是中国兰花中一个较为庞大的家族,是国兰中最具观赏价值的物种,同时也是最具广东特色的花卉种类之一。

IMG_259

IMG_260

本月23日在中国(翁源)兰花博览会上公布了墨兰基因组图谱,通过应用多种技术手段,包括Oxford Nanopore测序技术和染色体构象捕获技术(Hi-C),将基因组组装达到染色体水平。研究还发现,墨兰与所有其它兰花仅共享了一次全基因组复制(WGD)事件,于3600万年前分化而来。墨兰基因组重复序列含量为89%,这正是造成墨兰基因组比目前所有已测序的兰科植物都大的主要原因。

IMG_261

部分兰科植物进化树,Ntaure 2017 [2]

高质量的参考基因组为进一步的深入挖掘提供基础,结合最前沿的RNA测序技术、蛋白组测序技术、miRNA检测以及基因功能验证,蛋白相互作用分析等分子生物学手段,可以找出国兰进化中经历的关键事件,从而解析国兰形态的进化历程,解码国兰形态多变的奥秘。通过对数据分析挖掘,进一步研究植株建成基因(如叶形态相关基因CPC、花形态相关基因MADS-box等),花形态建成相关分子机制、花色调控相关代谢通路等。

科研人员将充分利用广东特色墨兰的资源优势,开展以全基因组测序为基础的兰花重要性状的功能基因研究,开展以FT基因为核心的成花诱导调控和以MADS-box基因为核心的花器官分化与发育分子机制、兰花分子标记辅助育种、分子设计育种、开花调控以及花型发育模型等前瞻性研究,并利用大数据组学分析手段整合生物学功能研究,突破一批关键技术难点,从基因组到形态对墨兰的“国兰艺术”全部要素(含线艺、叶艺、花色、花香、花型等)进行分子解码,建立了墨兰重要性状的分子调控网络模型,揭示了国兰观赏性状的分子调控机制,为国兰的园艺性状改良、分子育种和基因编辑提供切实可行的理论指导。

墨兰基因组的高水平组装得益于多种高效技术手段的结合——Nanopore 长读长测序技术理论上DNA序列有多长就能测多长,在高杂合的含大量重复序列的墨兰基因组组装中发挥极大的作用;同时,染色体构象捕获技术(Hi-C)的加入实现了对墨兰基因组的染色体级别组装。兰花全基因组序列将为兰花遗传工程育种研究提供重要资源和基础,对于促进兰科植物保护、药用资源开发和品种创新等具有重大意义。

多重技术手段的结合为复杂基因组的组装开辟了新的路径,使得更高水平、更高精度的基因组学研究得以实现。武汉未来组是国内获得Oxford Nanopore官方认证的测序服务供应商,拥有PacBio Sequel和Bionano平台,并提供Hi-C辅助基因组组装,同时配备经验丰富的实验团队和生信分析团队,竭诚为您打造优质的基因组学研究服务。

参考链接和文献

[1] https://view.inews.qq.com/a/20180323A1G70P00

[2]Zhang, G.-Q. et al. The Apostasiagenome and the evolution of orchids. Nature 549, 379 (2017)

论染色体级别参考基因组哪家强?三代长读长测序来帮忙!

橙色小丑鱼(Amphiprion percula)是海葵鱼科的一种,隶属于绒头鱼科(大鳞鱼),与海葵有着共生的关系,是研究珊瑚礁鱼类生态和进化的最重要的物种之一,也被用作研究社会组织模式和过程的模型物种。2018年3月在bioRxiv预印了一篇借助PacBio+Hi-C对橙色小丑鱼进行染色体级别参考基因组装的文章[1],研究结果显示,橙色小丑鱼是目前最连续、最完整的鱼类参考基因组之一,优于2018年已发表2个的二三代混合组装的小丑鱼基因组[2-3],也是第一篇利用Falcon_Unzip获得的单体型水平的鱼类基因组。

Table1.三个已发表的的小丑鱼基因组测序策略和组装指标比较

这三篇论文应用了不同的组装策略,通过比较得知:

  • 三代长读长数据(PacBio/Nanopore)的引入有助于提高基因组组装的连续性
  • >100×纯三代组装能将Contig N50提升到Mb级别,与二代或者二三代混合组装相比,提升效果>10倍。
  • 如果同时辅以Hi-C技术,更能将Contigs聚类到染色体群,并可以对Scaffolds进行定向。

橙色小丑鱼文章亮点

1.chromosome-scale和haplotype level的组装

研究人员对橙色小丑鱼进行了121×的PacBio测序,对过滤后的数据进行多版本组装,挑选其中质量最佳的版本A7进行后续分析(基于组装基因组大小、contig N50、BUSCO评估等多指标综合考虑选择)。随后使用FALCON_Unzip解决单体型级别的组装和phasing;使用Quiver提高组装准确度;结合来自于大脑组织的Hi-C数据,将contigs聚类到染色体;使用PBJelly尽可能地填补gaps;最终得到chromosome-scale、haplotypelevel、phased的橙色小丑鱼参考基因组(Nemo v1)。

2.目前最连续、最完整的鱼类参考基因组之一

比较橙色小丑鱼和已有的26个染色体级别鱼类参考基因组的组装连续性(Contig N50比较,Fig.1)和完整度(BUSCO评估,Fig.2),本研究中的橙色小丑鱼是目前最连续、最完整的鱼类参考基因组之一。

染色体级别鱼类参考基因组文献汇总及下载方法请见文末。

Fig.1 27个染色体级别鱼类参考基因组的组装连续性比较

从研究结果中可知,三个contig N50>1Mb的参考基因组,都是基于三代长读长测序获得:

Nile tilapia (3.09 Mb,Canu),

orange clownfish (1.86 Mb,Falcon)

Asianseabass (1.19 Mb, HGAP)

Fig. 2 27个染色体级别鱼类参考基因组的组装完整度比较

3.橙色小丑鱼特有基因鉴定

通过比较橙色小丑鱼、剑尾鱼、罗非鱼、斑马鱼和尖吻鲈五种鱼类的直系同源基因家族,查找橙色小丑鱼所特有的基因。研究发现,这五个鱼类物种的蛋白质序列间具有很高的相似度,绝大多数(89%)的序列能被归集到19,838个直系同源群中,其中14,783个直系同源群(75%)是五个鱼类物种所共有的,推测这些共有基因对应的蛋白质基本上都属于硬骨鱼类的核心基因集群。通过单拷贝直系同源基因构建的进化关系(Fig.3B)与以往的研究一致。

鉴定了橙色小丑鱼特有4,429个序列,其中49%具有功能注释(Fig.3A),未来进一步研究将以这些特有unique基因对橙色小丑鱼的表型性状的影响为关注点。

Fig. 3 (A)五个鱼类直系同源基因家族的overlap关系

(B)五个鱼类系统发生关系

nOG:直系同源基因群数量   nSOG:特有的直系同源基因群数量

4.小丑鱼基因组data base

研究人员还搭建了Nemo小丑鱼基因组data base,提供全球化的小丑鱼组学数据开放共享平台,数据库链接:http://nemogenome.org

该论文使用PacBio +Hi-C 的方法获得染色体级别的参考基因组,通过与已发表的染色体级别鱼类参考基因组做比较,证明自身组装的连续性和完整度都名列前茅,鉴定目标物种所特有的基因以为后续研究提供候选,为进一步研究基因和表型之前的关系打下基础。

未来组在三代测序基因组学领域项目经验丰富,竭诚为合作伙伴打造高质量的参考基因组。

附:论文中提到的27种染色体级别的鱼类参考基因组  组装策略及指标汇总表

参考文献

[1] Lehmann, Robert, et al.”Finding Nemo’s Genes: A chromosome-scale reference assembly of the genomeof the orange clownfish Amphiprion percula.” bioRxiv (2018): 278267.

[2] Tan, Mun Hua, et al.”Finding Nemo: Hybrid assembly with Oxford Nanopore and Illumina readsgreatly improves the Clownfish (Amphiprion ocellaris) genome assembly.”GigaScience (2018).

[3] Marcionetti, Anna, et al.”First draft genome of an iconic clownfish species (Amphiprionfrenatus).” Molecular ecology resources (2018).

图片来源于网络|侵删

Iso-Seq辅助揭秘紅葡萄之王 ——卡本內苏维浓的独特之处

卡本内苏维浓又名赤霞珠,是最为人熟知、原生于法国的酿酒葡萄品种,世界范围内分布广泛。早前的DNA分析认为卡本内苏维浓是黑葡萄卡本内弗朗(Cabernet Franc)和白葡萄品种白苏维浓(Sauvignon Blanc)二者的后代,果粒小、果皮厚、出汁量少,含有极高浓度的酚类物质和单宁,使得卡本内苏维浓葡萄酒拥有深邃神秘的酒色和涩感。
阅读更多

PacBio 终于•也•升级了!软件、试剂双双升级,更高通量、更长读长!

PacBio公司在3月7日正式公开发布升级版PacBio Sequel软件(V5.1版本)和Polymerase试剂,Sequel平台测序通量和读长均得到极大提升。这一可喜的进步使得PacBio SMRT测序在de novo组装、结构变异检测、靶向测序以及RNA Iso-Seq测序等方面的应用更具优势。

阅读更多