Science | 三代PacBio测序构建高分辨率高等猿基因组
早前发表的多个非人类灵长类基因组质量和完整度不一致……
早前发表的多个非人类灵长类基因组质量和完整度不一致……
Harmful Algae‖PacBio RSII测序揭示微囊藻基因组甲基化motifs及R-M系统[2]
Fig.1文章研究思路
微囊藻是最常见的水华蓝藻,广泛分布于富营养湖泊,对环境造成严重影响。研究者通过PacBio RS II测序,获得三个微囊藻菌株(PCC 7806SL、NIES-2549 和FACHB-1757)的全基因组甲基化修饰图谱,解析其甲基化程度及分布模式;同时结合两个已测序菌株(NIES-843和TAIHU98)的基因组序列分析微囊藻属中的甲基化motifs和R-M(限制-修饰系统)基因(Fig.1)。
Fig.2 三个微囊藻属中的甲基化motifs
两篇甲基化论文都是PacBio RS II测序技术在甲基化检测中的应用实例,未来组凭借丰富的三代测序分析经验为这些项目提供测序服务并参与分析。同时,基于Oxford Nanopore测序平台的甲基化直接检测服务也将上线,请持续关注。未来组携第三代单分子测序技术平台(PacBio SMRT和Oxford Nanopore),将实现物种全基因组甲基化图谱绘制,为表观遗传研究再添助力!
参考文献
[1] Liang et al., DNA N6-Adenine Methylation in Arabidopsis thaliana, Developmental Cell (2018)
[2] Zhao L, Song Y, Li L, et al. The highly heterogeneous methylated genomes and diverse restriction-modification systemsof bloom-formingMicrocystis[J].Harmful Algae, 2018, 75: 87-93.
图片来源于网络|侵删
基因组测序及组装:提取木棉叶片DNA,利用Illumina平台进行基因组Survey,测序数据量36.1 Gb;在PacBio Sequel平台测序19个SMRT cells,测序数据量86.0 Gb; Bionano光学图谱辅助组装,测序数据量160.0 Gb。
转录组测序:提取嫩芽、根、花朵、树皮及果实等组织RNA,利用Illumina HiSeq 2000平台进行RNA-Seq,测序数据量44.41Gb。
Fig.1 K-mer分析
K-mer 分析估计木棉基因组大小809M,基因组杂合率0.88%(Fig.1)。结合PacBio及Bionano数据,最终组装出895Mb的木棉基因组,ContigN50为1.0Mb,Scaffold N50为2.06M。基因组组装完整性很好,BUSCO评分达到94.4%。
Table1 BUSCO分析结果
在木棉基因组中共发现454,435 个SSRs,且木棉基因组的重复序列占60.30%,其中长末端重复序列(LTR)含量最高(47.86%)。ncRNA注释共发现496个miRNAs、894个tRNAs、6,772个rRNAs及727个snRNAs。
Fig.2 木棉与其他植物的系统发育关系
为了确定木棉的进化地位,研究者比较了木棉在内的12种植物的基因组。基因家族聚类分析发现木棉中的37,736个基因分属于16,586个不同的基因家族,其中有906个基因是木棉所特有的。基于172个单拷贝的同源基因构建系统发育树,发现木棉与木本棉的的分化大约发生在2060万年前(Fig.2)。此外,基因家族分析揭示了木棉基因家族中的扩张与收缩现象(Fig.3)。
Fig.3 木棉基因家族的扩张与收缩
木棉基因组高杂合高重复,在组装中存在很大的困难。三代长读长技术的加入,克服了这些困难,获得了高质量的木棉基因组,这将为木棉品种改良和基因组学研究提供良好基础。
除木棉之外,锦葵科的另一种明星植物:榴莲也于2017年在Nature Genetics在线发表了其基于三代测序技术的基因组,该文通过基因组与转录组的联合分析,揭示了榴莲独特气味的分子基础及代谢过程。三代测序由于其长读长,无GC偏好,能轻松跨过较长的重复序列等特点,非常适合大型林木的基因组测序。
随着长读长测序技术的发展,物种的基因组组装也从草图逐渐过渡到精细图谱。未来组携三代长读长测序技术(PacBio SMRT、Oxford Nanopore)、BioNano光学图谱及Hi-C染色体构象捕获等技术,为合作伙伴提供更连续、更高质量的动植物基因组组装分析服务。
参考文献
[1] Gao, Y. et al. De novo genome assembly of the red silk cotton tree (Bombax ceiba). GigaScience, giy051-giy051 (2018).
[2] Teh B T, Lim K, Yong C H, et al. The draft genome oftropical fruit durian (Durio zibethinus)[J]. Nature Genetics, 2017, 49(11).
图片来源于网络|侵删
广泛种植的普通小麦为异源六倍体,含有A、B、D三个基因组,其基因组大而复杂(约17 Gb,是水稻基因组的 40 倍、人类基因组的 5.5 倍),85%以上基因组DNA为重复序列,其形成涉及三个原始祖先种的两次天然杂交(Fig.1)。
Fig.1现代栽培小麦异源六倍体基因组形成示意图
面包小麦全基因组测序分析[1]
A、B、D基因组约各有28,000、 38,000 及36,000个基因,研究者据此六倍体小麦的基因组拥有94,000~96,000个基因。
小麦与短柄草基因组高度同源,但同时在短柄草的1号染色体和4号染色体上也存在保守性较低的区域(Fig.2 track 1)。此外研究者还基于小麦的高密度EST makers构建了小麦A、B、D基因组与短柄草的共线性图谱(Fig.2 track 5、6、7)。高分辨的共线性图谱显示在总体保守的基因区段中存在许多基因插入或易位现象。
Fig.2小麦基因组与短柄草基因组(B.distachyon)mapping结果(track 1表示小麦454 reads与短柄草基因组的比对结果;
track 2、3、4表示小麦A、B、D基因组中的SNP密度;track 5、6、7表示小麦A、B、D基因组与短柄草基因组的共线性关系)
研究者发现面包小麦的六倍体基因组是高度动态的,基因家族在多倍化和驯化过程中存在大量的缺失现象。与能量获取、代谢和生长相关的基因家族的扩张可能与产量相关。
Fig.3六倍体小麦、节节麦、玉米及水稻的基因家族大小
尽管通过454测序获得的六倍体小麦基因组并不完整,它仍为后续的基因鉴定提供了有力的基础,促进了小麦的进一步的基因组测序和基因组规模分析。
Table 1乌拉尔图小麦基因组组装情况
乌拉尔图小麦的基因组大小是短柄草基因组的18倍,但预测的基因数却只是短柄草的1.37倍。乌拉尔图小麦和短柄草具有很高的共线性(Fig.5a)。短柄草的1号染色体上包含5个基因的区段,长度为50kb,是乌拉尔图小麦和短柄草中一个具有代表性的共线性片段。比较发现在乌拉尔图小麦上这五个基因分属于不同的scaffold,总长度为1,092 kb(Fig.5 b)。相对于短柄草,乌拉尔图小麦的基因空间扩张了20倍之多。这些结果证实了重复序列在小麦家族基因组扩张中的作用。
基于乌拉尔图小麦的基因组草图,该研究鉴定了蛋白质编码基因模型,进行了基因组结构分析,并对其在分析重要农艺基因和开发分子标记方面的应用进行了评价,为多倍体小麦基因组的分析提供了一个二倍体参考基因信息,也为小麦遗传改良提供了有价值的资源。
中国研究者完成小麦A基因组供体——乌拉尔图小麦A基因组精细图谱[3]
该研究结合了BAC建库方法,三代PacBio SMRT技术、Bionano光学图谱技术和10X genomics技术,成功绘制了小麦A基因组的精细图谱,绘制出了小麦A基因组7条染色体的序列图谱,注释出了41,507个蛋白编码基因。
Table 2 基因组组装及注释情况
通过与水稻、高粱和短柄草基因组的比较和共线性分析,推演出了小麦A基因组7条染色体从禾本科共同祖先基因组起源的演化模型。
Fig.6 乌拉尔图小麦和普通小麦A、B基因组的共线性分析
Fig.7乌拉尔图小麦染色体进化模型
此次科学家描绘的小麦 A 基因组图谱,将有力地促进小麦基因组学研究和小麦分子设计育种的开展。这项研究也体现了长读长测序技术及光学图谱技术在使基因组更完整、更精细、更准确上的重要应用价值。
追溯小麦B基因组起源——基因组测序解析野生二粒小麦基因组[4]
Fig.8野生四倍体小麦(WEW)14条染色体的结构、功能及共线性分析图谱
WEW的2个亚基因组的同源性分析,发现其中72.3%同源基因对,同源基因对的表达模式和表达水平相似。另外少量同源基因对只在一个亚基因组中表达,功能富集分析表明,亚基因组调控的基因表达可能与小麦品种相关。
Fig.9全基因组多样性分析
通过外显子测序,驯化和野生二粒小麦显著分离成2个亚群,野生二粒小麦分布以色列、叙利亚、黎巴嫩和土耳其地区,栽培二粒小麦分布印度洋、地中海、东欧和高加索地区,与野生小麦相比,栽培小麦的多样性下降。
小麦D基因组供体—— 节节麦基因组测序解析[5]
节节麦又名粗山羊草,是现代普通栽培小麦(异源六倍体)的D基因组供体种,其基因组中抗病相关基因、抗非生物应激反应的基因数量都发生显著扩张,增强了其抗病性、抗逆性与适应性。
D基因组的加入,使小麦的抗病性、适应性与品质得到大大改良。加州大学戴维斯分校植物学教授 Jan Dvořák 的团队结合多种先进测序技术,最终获得具有参考价值的节节麦基因组序列,将为改良小麦品种、提高小麦面粉质量提供主要的基因来源。
Fig.10 (a)节节麦与高粱、水稻、大麦、短柄草的基因家族聚类分析;(b)节节麦与中国春系列小麦的基因家族聚类分析
节节麦的基因组组装结合了多项测序数据,最终约95.2%的序列组装了7条染色体,且其基因组包含了大量的重复序列。与其他已测序物种进行比较分析,发现节节麦基因组中含有更多分散的重复基因,且染色体结构的进化速度也更快。研究者认为,节节麦基因组中大量相似的重复序列导致了频繁的重组错误,致使染色体结构的改变,从而推动了基因组的快速进化。
获得节节麦基因组参考序列,为研究小麦驯化史提供了一个全新的视角,并为多倍体小麦基因组的测序分析提供了D基因组参考序列。
参考文献
[1] Brenchley R, Spannagl M, Pfeifer M, et al. Analysis of the bread wheat genome using whole-genome shotgun sequencing.[J]. Nature, 2012,491(7426):705-710.
[2] Ling H Q, Zhao S, Liu D, et al. Draft genome of the wheat A-genome progenitor Triticum urartu.[J]. Science Foundation in China, 2013, 496(2):37-37.
[3] Ling, H.-Q. et al. Genome sequence of the progenitor of wheat A subgenome Triticum urartu. Nature (2018).
[4] Avni R, Nave M, Barad O, et al. Wild emmer genome architecture and diversity elucidate wheat evolution and domestication [J]. Science, 2017, 357(6346): 93-97.
[5] Luo M C, Gu Y Q, Puiu D, et al.Genome sequence of the progenitor of the wheat D genome Aegilops tauschii.[J].Nature, 2017, 551(7681):498.
Nanopore测序首次生成了单个>2Mb的测序序列,这是Nanopore测序史上的又一飞跃。该研究由英国诺丁汉大学生命科学学院Alexander Payne等人主导,研究成果已于5月3日在bioRxiv发布[1]。
NanoporeMinION测序输出数据为fast5格式,经过base calling 步骤获得相应的碱基序列(fastq格式)。此前基于MinION的base calling软件通常为MinKNOW。而Alexander Payne等人基于开发的BulkVis工具,发现MinKNOW在base calling过程中可能会将长reads错误打断,而消除这个“bug”之后,可获得读长超过2Mb的reads。
为什么要获得长读长?
获得完整的高质量的基因组信息是深入进行物种研究的前提。
二代短读长测序技术将基因组DNA打断为几百bp的小片段,测序后再逐步拼接,组装连续性差,尤其难以解决基因组中的复杂的重复区域和结构变异区域,很难获得完整的基因组组装结果。
Nanopore测序技术的长读长在基因组组装中优势明显,不仅可以大大提高基因组组装的连续性,还可以解决短读长测序所难以攻克的复杂重复序列,对结构变异的鉴定也有很大的优势。例如近期在Nature Biotechnology上发表的基于Nanopore测序获得的人类Y染色体着丝粒序列的文章,展示了Nanopore测序在解决复杂重复区域的优越性。此外,对线虫基因组中的复杂串联重排、果蝇基因组中的结构变异的鉴定等都是Nanopore长读长测序的应用实例(相关文献解读见文末延伸阅读)。
案例一Nanopore完成某昆虫基因组组装
基于K-mer分析预估该昆虫基因组大小为~330Mb。
Fig.1K-mer分析
提取合格的样本DNA,在Oxford Nanopore GridlON X5平台测序30Gb三代数据,最长读长达270Kb,reads N50长度达26.8kb。长读长是后续进行更准确基因组组装的前提。
Fig.2读长分布
利用多种软件进行基因组组装,配适最优方案。基于超长读长的Nanopore测序和搭配的超算平台,让基因组组装更连续,更快捷。本案例中,该昆虫基因组组装Contig N50能>7Mb,已达到昆虫模式动物果蝇的组装水平。
Table1 组装结果
将组装的基因组通过 BUSCO比对昆虫基因组数据库,评估对保守基因组装的完整度,间接f反映整个基因组完整度。结果表明,经过Nanopolish+Pilon(×2)校正后,BUSCO评估能达到~98%,基因组组装完整性好。
Table2 BUSCO评估
案例二某动物ultra-long 测序数据惊艳首发
Nanopore ultra-long测序可实现超长读长,根据其独特的转座酶建库方式,可以获得含有超长片段的DNA测序文库,再通过Nanopore测序即可获得超长的DNA序列。超长序列将大大有利于基因组de novo组装及染色体复杂结构变异的鉴定等。
Fig.3Ultra-long 建库测序流程
未来组基于Nanopore 测序平台,对某哺乳动物血液进行ultra-long建库并测序,多个文库的reads N50长度大于70kb,最长读长超过1Mb!
Fig.5 单个文库读长分布
未来组迄今已完成数十个Nanopore动植物基因组测序组装,并与牛津纳米孔公司携手推出“1000个中国人基因组结构变异检测计划”,共同开发Nanopore技术在生命科学领域的新应用。未来组将持续扩大Oxford Nanopore测序平台,打造包含三代单分子测序、光学图谱、三维基因组学等多方位的组学研究中心,还将在RNA直接测序、表观转录组学等领域进行深度的探索。
参考文献:
[1] Alexander Payneet al. Whale watching with BulkVis: A graphical viewer forOxford Nanopore bulk fast5 files. bioRxiv.2018.
[2]https://nanoporetech.com/about-us/news/longer-and-longer-dna-sequence-more-two-million-bases-now-achieved-nanopore
延伸阅读
NBT丨Y染色体着丝粒序列解析完成的一小步,人类基因组完成图历史上的一大步
Nanopore direct RNA测序是基于mRNA拥有poly(A)尾巴的特点进行测序的,其adapter是一段包含10个T的核酸序列,可与mRNA上的poly(A)序列互补,再连接测序接头,即可达到牵引mRNA到纳米孔进行测序的目的(Fig.1A)[3]。
A型流感病毒的RNA基因组3’端和5’端各有一段12nt和13nt的保守序列,研究者巧妙地设计了一种针对流感病毒基因组负链3’端保守区的Nanopore测序接头RTA(Fig.1B),从而实现了在Nanopore MinION上对流感病毒RNA的直接测序。
Fig.1 (A)Nanopore direct RNA建库测序示意图;(B)基于流感病毒保守序列Nanopore测序接头示意图
为了验证设计的RTA 的有效性,研究者应用Nanopore MinION对从已感染的鸡蛋尿囊液中提取的total RNA进行测序,结果表明该RTA接头可以特异性识别流感病毒RNA,通过Nanopore测序获得的序列能100%覆盖流感病毒基因组,且99%的序列可比对到流感病毒基因组。
Fig.2 MinION和MiSeq在原始样本中对PB2、PB1、PA、HA、NP、NA、M和NS片段测序覆盖度比较
MinION测序数据对流感病毒中的PB2、PB1、PA、HA、NP、NA、M和NS等8个片段的覆盖度均为100%, 但3’端表现为更高的测序深度,说明测序是从3’端开始的(Fig.2)。研究还将MinION测序结果与MiSeq测序结果作了比较。
研究者指出,应用该方法还可以对在病毒生命周期中起重要作用的病毒mRNA和cRNA进行测序,这有可能识别和量化剪接类型并进行碱基修饰检测,而这些在以往的方法中是无法做到的。针对不同类型的RNA设计adapter并结合Oxford Nanopore测序可实现对RNA的靶向测序,大大增加了该技术的应用范围。
相关阅读
Nature methods丨基于Nanopore的direct RNA测序方法测评,你要不要来试试?
2017农历年前,Nanopore组装动植物基因组盘点及文献下载
未来组–中国首家通过Nanopore官方测序服务认证
参考文献
[1] Flu virus finally sequenced in its native form. Nature(2018)
[2] Keller M W, Rambo-Martin B L, Wilson M M,et al. Direct RNA Sequencing of the Complete Influenza A Virus Genome[J].bioRxiv, 2018: 300384.
[3]Garalde D R, Snell E A, Jachimowicz D, et al. Highly parallel direct RNA sequencing on an array of nanopores. Nature Methods,2018.
图片来源于网络|侵删
二十世纪中后期,高通量的二代测序技术的发展降低了测序费用,实现了人们对基因组多样性、病原体变异及转录组、表观组和基因调控等的进一步研究。但是二代测序的短读长劣势,也限制了其对基因组中的重复序列和复杂结构变异等的鉴定。同时,文库构建过程中人为引入的错误也是二代测序技术面临的一大问题。
新近发展起来的基因组学技术如长读长测序技术PacBio SMRT和Oxford Nanopore(平均读长超过10kb,最长可达1Mb)、长片段测序技术Bionano、Hi-C及10X Genomics技术等可解决复杂基因组中的重复序列、微卫星序列及其他复杂的结构变异等问题。Table 1列举了这些新技术的主要应用方向。
新的数据类型催生了新的适用于其的生物信息学算法,文章中列举了基于这些新基因组学数据的大量实用分析软件。当前,新的生物信息分析工具已经结合新技术在很大程度上提高了我们对基因组的认识:
基因组de novo组装
复杂重复片段、高杂合、测序错误、覆盖不足或偏向性等问题是基因组组装中的重难点,其中,重复片段是最难克服的一环。基于二代短读长测序极有可能会导致拼接错误。基因组de novo组装是长读长测序的一个重要应用方向——它们解决了基于二代短读长技术所不能解决的复杂重复片段及偏向性等问题。同时结合Bionano光学图谱技术等可进一步提高基因组组装质量。
染色体scaffolding和空白填补
新技术的加入填补了许多基于一代或二代测序技术得出的参考基因组中的许多空白(如玉米、果蝇和蚊子基因组等),并进行纠错,获得了更为完善的物种基因组。与contig不同,scaffold序列含N碱基,如何确定contig的正确顺序和方向是scaffolding的难点。使用染色体构象捕获技术(Hi-C)、10X Genomics技术及光学图谱技术(Bionano)可以有效地辅助构建scaffold。例如,山羊和人的基因组组装就结合了长读长测序技术和Hi-C技术,contig N50分别达到了18.7 Mb和26.8 Mb,scaffold N50分别为87Mb和60.0Mb。
Fig.1 PacBio+Bionano组装结果与参考序列hg19比较 [2]
复杂结构变异鉴定及分析
染色体结构变异(SVs)包括缺失、插入、重复、倒位和转座几种类型,变异区段通常大于50bp。SVs与人类健康和疾病有密切关系。过去的SVs分析通常基于短读长的测序技术,然而由于读长限制,二代测序技术对SVs的鉴定存在较高的错误率,且灵敏度较低。可喜的是,新一代的长片段测序技术为SVs的鉴定提供了新的可行性方法——与二代技术相比具更高的灵敏度和更低的错误率。
Fig.2 基于Illumina、PacBio和Oxford Nanopore的测序数据中的结构变异分析的比较
单倍型及等位基因特异性分析
许多真核生物,包括高等动植物,其基因组往往含有不只一个拷贝的染色体组。鉴别母本和父本的基因型有利于区分复合杂合子和半基因突变,以及等位基因特异性表达等。使用测序技术直接获取个体的单倍体信息具有很大的研究价值。如Fig.3所示,当测序reads足够长,即能够跨越杂合子变异区而实现对单倍体的有效phasing。但实际上通常由于读长限制、测序错误及测序覆盖深度的波动导致变异的错误引入和真实变异的缺失。
Fig.3 长reads对单倍体的phased示意图
通过短读长测序技术获得的Phased block N50基本在1kb左右,而经长读长的PacBio和Oxford Nanopore测序获得的Phased block N50可达到100kb~500kb;由10X Genomics技术获得的Phased block N50已超过10Mb;基于Hi-C的长距离测序技术理论上甚至可以Phased到整个染色体——这些长片段测序技术的发展促进了单倍型的鉴定和分析。
Isoform鉴定及基因定量
真核生物中的可变剪接是增加蛋白质多样性的重要机制。在果蝇中,性别特异性基因dsx的不同的剪接形式甚至决定了果蝇的性别;而在人体内,据估计有95%的多外显子基因都表现出不同的可变剪接形式,以此构成了人体中复杂的转录本。
RNA-Seq技术虽然可以实现对转录本的表达定量,但由于其读长限制,无法准确解析真核生物中复杂的Isoform结构。而三代长读长测序技术——PacBio和Oxford Nanopore测序技术可以显著地提升对Isoform结构的鉴定。无论是cDNA测序还是direct RNA测序,都可以直接得到转录本全长,直观地展示转录本结构。
Fig.4 长读长测序发现的新的Isoform类型示例
表观修饰的直接检测
表观修饰是生物体基因表达调控机制中的重要一环,长片段测序技术实现了对表观修饰尤其是甲基化修饰的直接检测分析。目前研究较为广泛的甲基化修饰机制主要是6mA及5mC。先前对5mC的主要检测方法是基于短读长的亚硫酸氢盐测序法,该方法具有较高的偏好性。而长读长的PacBio和Oxford Nanopore测序技术可以直接对天然DNA进行测序,减少了人为引入的错误因素,更真实地还原DNA链上的甲基化修饰现象。
Fig.5 单分子测序法检测甲基化核苷酸。(A)基于PacBio Sequel的甲基化修饰检测原理图;(B)基于Oxford Nanopore甲基化修饰检测原理图
基于PacBio的 BaseMods软件根据测序过程中聚合酶引入核苷酸的速度——脉冲间隔的持续时间(IPD)来判断是否存在甲基化修饰(Fig. 5Aa、Ab)。Nanopolish和SignalAlign则是基于Oxford Nanopore的甲基化检测软件,通过分析非甲基化和甲基化核苷酸引起的电流信号变化来判断发生甲基化修饰与否(Fig.5 B),随后,利用隐马可夫模型(HMM)分析该修饰是发生在胞嘧啶还是腺嘌呤上。此外,最新的研究表明Oxford Nanopore技术甚至可以直接检测RNA分子上的甲基化修饰。
多组学技术结合对于结果分析更有利,这也就意味着我们需要更加灵活的生物信息分析工具。文章还指出了这些长片段测序技术在应用过程中所面临的一些生物信息学分析挑战(Table 2)。
新兴的长片段测序技术和映射技术结合适当的生物信息学算法,将在很大程度上提高基因组、转录组以及表观组的数据质量,为人们提供更全面的基因组学信息,有望更完整、更准确地展现基因形式,实现对基因调控区域及其他重要元件的准确识别,并提高对等位基因特异性的鉴定,在科研及临床医学领域都具有不可估量的应用前景。
[1] Sedlazeck F J, Lee H, Darby C A, et al. Piercing the dark matter:bioinformatics of long-range sequencing and mapping[J]. Nature ReviewsGenetics, 2018: 1.
[2] Pendleton M, Sebra R, Pang A W C,et al. Assembly and diploid architecture of an individual human genome via single-molecule technologies[J]. Nature Methods, 2015, 12(8):780.
图片来源于网络|侵删