Nature Communications丨基于三代测序的水稻近完成图

Nature Communication在线发表–基于三代测序的水稻近完成图

5月4日,中国科学院遗传所与发育生物学研究所与四川农业大学研究团队合作于Nature Communications 在线发表了迄今最高质量的水稻参考基因组(蜀恢R498)。未来组作为三代测序技术的领导者,在R498水稻基因组项目中,为研究团队提供PacBio SMRT测序。研究人员基于PacBio SMRT测序技术,结合遗传图谱、fosmid文库测序和BioNano光学图谱对R498基因组测序组装,最终组装出的基因组大小为390.3Mb,Super-Contig数目仅为17个,组装质量明显优于之前组装的日本晴(Nippponbare)和模式植物拟南芥基因组,成为目前所有高等植物中组装质量最高的基因组。

基因组组装质量高

1.基因组完整度和连续性好
经PacBio SMRT测序技术,结合遗传图谱、fosmid文库测序和BioNano光学图谱,R498基因组(2n=2x=24)组装出17条Super-Contig,基因组中有7条染色体被完整组装出,另外5条染色体各由2个Super-Contig组成,存在的gap区域主要是着丝粒或串联重复结构。
经检测评估,R498每条染色体末端都组装完整,仅存在5个gap;而Nip仅有4条染色体两端组装出端粒,且存在239个gap。两者相比较,R498的组装结果比Nip更完整和连续。(Tab.1)

Tab.1 R498和Nip组装连续性和完整度比较

2.组装出了完整的细胞器基因组
除核基因组之外,研究者还组装出了R498完整的线粒体序列。通过和Nip的线粒体基因组进行比较(Fig.1),发现Nip线粒体基因组中存在不少错误,可能是因为含有复杂的重复序列区域,其中有3个重复序列长度超过20kb。

3.组装质量评估
对R498基因组进行组装质量评估,发现其基因组覆盖率超过99%。结合二代短读长数据和RNA-Seq数据进行评估,结果显示其基因组单碱基错误率<0.0017%,大大低于对于人类及其它高质量的参考基因组(如Nip)来说所要求的标准:1/10000。

Fig.1 蜀恢(R498,橙色)和日本晴(NIP.,绿色)线粒体基因组比较

1.R498与Nip基因组间比较分析
通过基因组比较分析可以看出(Fig.2),两个基因组间在染色体水平上有很高的相似性,80.31%的R498基因组能比对到82.73% Nip基因组,但是在基因序列上存在2,548,071个SNP差异。并且研究人员还基于R498基因组的完整性,发现在R498与Nip基因组间存在大量结构变异,例如在6号染色体上存在一个大片段的倒位区域(Fig.2)。另外还对着丝粒、端粒、PVs、rDNA这些区域进行了对比。

Fig.2 R498与Nip.全基因组比较

2.19个水稻品系间的比较基因组学分析
对比R498与Nip的基因组,发现在其基因编码区存在大量的变异(Fig.3a)。同时,在与其他17个栽培水稻基因组比较后,发现水稻基因组中广泛存在不同的PAVs(Presence-absence variations)(Fig.3b)。PAV等结构变异往往与农艺性状表型密切相关,如果基于二代短Reads与参考基因组进行比对,这部分信息往往被遗漏。

Fig.3 a:R498和Nip间同源基因数量 b:水稻基因组PAVs比较

植物基因组因高杂合高重复序列而组装困难,借助PacBio长读长优势,结合BioNano光学图谱和Hi-C技术辅助组装,能够克服这些难题,覆盖端粒、着丝粒、重复序列等区域,大大提升组装指标,为解决后续重要功能基因挖掘和进化研究提供高质量的参考基因组。

未来组作为三代测序基因组中心,已于2016年搭建了 Sequel、BioNano及Hi-C等技术平台。借助平台的搭建,未来组将会为更多合作伙伴提供专业优质的服务。

参考文献

Du HL, Yu Y, Ma YF, et al. Sequencing and de novo assembly of a near complete indica rice genome[J]. Nature Communications, 2017.

组学君喊你来看榜—2015年三代测序基因组文章

随着后基因组时代的到来,研究者的目光转向了功能基因组、比较基因组、进化基因组等领域的研究。此时Draft genome中组装顺序、重复区gap、染色体结构变异区的组装错误等成为了后基因组研究的瓶颈,这个时候迫切需求对draft genome升级及高质量参考基因组的获得。通过过去几年PacBio技术的发展,已能得到微生物基因组完成图(真菌基因组近完成图),解决微生物领域大量问题,更参与了大型基因组的升级和de novo组装,为动植物基因组领域研究添砖加瓦。组学君盘点了2015年PacBio技术在大型基因组升级和de novo组装中的“杰出贡献”,此处应该有掌声!

01  PacBio SMRT 测序解决人类基因组复杂序列难题

2015-1-29 Nature

研究策略:PacBio RS Ⅱ P5C3(41×)

作为目前最完整的哺乳动物基因组参考序列,人类基因组经过十几年的不断完善,仍然存在160多个gap。人类基因组中的结构变异等复杂信息仍知之甚少。在这篇文章中,研究人员利用PacBio测序,成功填补了GRCh37上55%的gap,其中包括78%的短串联重复序列,存在于高GC基因组区域;确定了26,079个常染色质结构变异,包括染色体倒置、复杂插入片段及大量长串联重复,大部分变异之前未曾报道过。这篇文章的发表,令人类基因组的完整性得到了重要提升。

02  果蝇Y染色体新基因的发现

拨开假基因、转座子和高度重复序列的云雾

2015-8-21 PNAS

研究材料:黑腹果蝇 Drosophila melanogaster

研究策略:基于黑腹果蝇基因组 NCBI accession JSAE00000000.1 数据进行MHAP, PBcR, FALCON, Illumina reads 验证组装结果

与哺乳动物性染色体同源模式不同,果蝇的XY染色体并不同源,大多数Y连锁基因是常染色体旁系同源基因,因此,果蝇Y连锁基因主要来源于常染色体的转移。研究人员利用已有的PacBio测序数据研究了黑腹果蝇Y染色体中一段复杂区域,发现之前未确定的基因FDY,这个基因所在的区域有55 kb,含有假基因、转座子和高度重复序列。FDY来源于常染色体基因vig2的近期复制,能为早期阶段果蝇Y连锁基因的建立提供信息,同时论证了果蝇Y染色体如何积累常染色体基因。研究人员在文章中说:“PacBio技术解决了腹黑果蝇复杂区域的难题,得到几乎无错的FDY区域组装,这是我们曾经耗费大量工作也未能解决的难题”。

03  扁虫为何可以再生

一个重复度极高的复杂基因组

2015-8-23 PNAS

研究材料:扁虫 Macrostomum lignano

研究策略:基因组1. PacBio RS Ⅱ P4C2(130×)  2.Hiseq 2000 (170×);

转录组 Hiseq 2000

扁虫有着令人惊叹的再生能力,受伤之后可以产生大量的躯干干细胞群——即副胚层——再生出几乎完整的新机体。这一独特性质吸引了大量学者来研究扁虫进化机制,如组织自我更新、细胞特异性、细胞再生等。由于之前已经发布的基因组参考序列有许多gap和注释不完整,功能研究受到极大限制。但是扁虫基因组极为复杂,约75%的基因由简单重复序列和转座子序列组成,利用NGS短读长得到的组装结果很不理想(contig N50 = 222 bp)。因此研究人员利用130×PacBio 长读长数据获得了更好的组装结果(contig N50 = 64 kb)。在此基础上,结合转录组分析和功能实验等,研究人员对干细胞功能相关的细胞信号通路进入了深入研究。

04  耐旱草

复杂基因组元件蕴藏着什么样的宝贵信息?

2015.11.11 Nature

研究材料:耐旱草 Oropetium thomaeum

研究策略:纯三代组装 (72X)

一个精细组装的大基因组参考序列,是挖掘复杂基因组元件功能的基本前提。Donald Danforth植物科学中心的研究人员及其合作者运用三代PacBio RSⅡ测序平台,以72倍的覆盖度分析了Oropetium 245 Mb的基因组,组装得到近乎完整的基因组参考序列(Contig N50=2.4Mb),并且准确性超过99.999%,检测到很多之前二代测序无法组装的区域,包含端粒和着丝粒序列、长末端重复反转录转座子、串联重复基因以及其他难以接近的基因组元件,发现了大量与耐旱相关的基因组元件,对其耐旱分子机制有了更深入的理解。

05  赤小豆基因组

多种基因组组装策略之横向比较

2015.11.30 Nature Scientific Reports

研究材料:赤小豆 Vigna angularis

研究策略:Assembly_1,Roche454和Illumina数据混合de novo组装;Assembly_2 ,Illumina-only de novo组装;Assembly_3 ,PacBio de novo组装;通过小豆 V. angularis cv. ‘Erimoshouzu’ (JP37752) 与V. nepalensis (JP107881) 的F2构建高密度遗传连锁图,辅助优化组装结果。

赤小豆是东亚第二重要的豆类作物品种,目前赤小豆主要的培育方向是种子质量、耐寒能力及抗病性能。文章中比较了赤小豆基因组组装中的三种策略——基本代表了目前主要的de novo组装方法。从组装结果来看,纯三代组装方法能够明显提升组装结果。

你知道吗?一张图可以看懂DNA测序平台的发展哦!

近几十年来基因组学高速发展,我们目睹了新的技术不断问世。从第一代Sanger测序到基于PCR扩增的二代NGS,再到单分子测序;也见证了新的仪器接踵而至,从ABI的第一台Sanger测序仪,到后来Roche的454,Illumina,Solid,以及Nanopore,PacBio SMRT单分子测序仪。回顾2015,笑看NGS发展风云史,是一家独大的笑傲江湖,还是长江后浪推前浪的前赴后继?展望2016,是旧时代的延伸,还是新技术的披荆斩棘?组学君携新一代测序仪与你一起回顾NGS技术发展。

HLA分型 & MinION (三代测序那些事儿 第十一期)

MinION Acess Program(MAP)2014-

这期接着聊MinION,还不知道MinION为何物的小伙伴可以阅读小编的上一期文章或者访问Oxford Nanopore官网:www.nanoporetech.com

Oxford Nanopore 2014年面向全球推出了其三代测序系统MinION的试用计划(MinIon Access Program),申请者只需支付1000美元便可得到MinION及其配套的建库试剂盒、在线分析软件等,Nanopore可根据反馈数据进一步完善其MinION系统。

这种全球性的知识众筹行为让Nanopore在短短一年里获得了大量的专业经验, 目前MAP计划已经产生了20多篇研究成果,涵盖了数据处理[1]、致病菌/病毒鉴定[2-3]、基因组组装[4-6]、Isoform 测序[7]、HLA分型[8]等众多组学研究热点,这对Nanopore来说算得上钵盆满盈。

PS:目前试用计划只支持DNA片段测序文库。

上期三代那些事儿里小编为大家分享的是MAP计划中分别来自法国(Institut de Génomique)、英国(伯明翰大学)、美国(冷泉港)的研究团队的几个微生物基因组MinION数据组装成果,展示出该超长读取的新型测序技术已经初步具备了快速绘制微生物基因组完成图的能力。

MinION在HLA分型中的首次尝试[8]

这期分享的是来自加拿大多伦多大学的一篇研究(MAP计划成果),研究中Ron等人尝试使用MinION数据实现对HLA-A、HLA-B的高分辨率分型,即等位基因(Alle)级别的四位数分辨率(4-digit resolution)。

HLA中文名为白细胞表面抗原,对抗原呈递和免疫信号传递起关键作用,是人体中最复杂的遗传多态系统,同时等位基因具有共显性表达的特点,截止2015年4月,IMGT/HLA数据库中收录了36个HLA基因座位,Alle数目高达13,023个。

HLA的高分辨率(等位基因级别)分型对于器官移植、精确用药(比如用于治疗HIV/AIDS的嘌呤醇、阿巴卡韦等)至关重要。

基于NGS的PCR-SBT法是目前主流的HLA分型方法,但由于其读长较短往往难以得到Alle级别的高分辨率分型结果,借助双亲数据以及HapMAP单体型(注意区分单倍体型)数据Phasing得到的高分辨率结果通常存在较大的误差。

研究中使用MinION装置对个体NA12878(CEPH/Utah Pedigree 1463)的HLA-A、HLA-B扩增子进行了测序,使用了R7.3新型试剂,经所测数据比对回人类参考基因组GRch37上,每个基因座位得到了~1000 X MinION 2D Reads,准确率在70-90%,长度大多为4-5kb(见图1),代表了大多数reads包含了完整的HLA基因(HLA-A、HLA-B基因5kb左右)。

                   图1 Reads(Blasr mapping to GRch37)长度分布

使用HLA GATK HLA Caller 预测了基于上述MinION数据的HLA-A、HLA-B基因型,得到高分辨率的等位基因型预测结果:

HLA-A Alle 1 *01:32 、HLA-A Alle 2*03:12;
HLA-B1 Alle 1*07:56、HLA-B Alle 2* 55:10。

然而,使用NGS、飞行质谱等数据,借助HapMAP 单体型数据校正,却得到了与上述相差较大的等位基因分型结果:

HLA-A Alle 1 *01:01 、HLA-A Alle 2*11:01;
HLA-B1 Alle 1*08:01、HLA-B Alle 2* 56:01。

从四位数分辨率的分型结果来看,较高原始错误率的MinION数据似乎并不能马上胜任HLA的临床分型。

但小编相信随着原始错误率的降低以及分型算法的改进,MinION会成为一款应用于HLA临床分型的便携式装置。

另一种也是目前唯一商业化的三代测序技术的PacBio SMRT已经在HLA分型中做了较为成功的尝试,英国安东尼诺兰研究所使用该技术对7个个体中的HLA-A、HLA-B、HLA-C基因进行了分型,共得到38个等位基因型,大多数达到了六位数级别的超高分辨率,其中30个与IMGT/HLA数据库中收录的基因型完全相符,见表格2[9]

Paper:
[1] Poretools: a toolkit for analyzing nanopore sequence data .
[2] MinION nanopore sequencing identifies the position and structure of a bacterial antibiotic resistance island.
[3] Bacterial and viral identification and differentiation by amplicon sequencing on the MinIONT nanopore sequencer
[4] A complete bacterial genome assembled de novo using only nanopore sequencing data.
[5] Genome assembly using Nanopore-guided long and error-free DNA reads.
[6] Oxford Nanopore Sequencing and de novo Assembly of a Eukaryotic Genome
[7] Determining Exon Connectivity in Complex mRNAs by Nanopore Sequencing
[8] Long read nanopore sequencing for detection of HLA and CYP2D6 variants and haplotypes
[9] HLA Typing for the next Generation.

逆境中求生存的MinION君(三代测序那些事儿 第十期)

原创文章  作者 贺少方

三代测序那些事儿开贴以来一直是在讲三代测序君PacBio的发家史,其实三代测序这个行当里还有另外一位仁兄Oxford Nanopore,一直被大家忽略却也是蛮拼的一个家伙。小编今天就换个口味,给大家聊聊Nanopore MinION君是怎么逆境中求生存的。

Oxford Nanopore 2014年推出其掌上测序仪MinION试用计划,同样具有单分子测序与超长读取能力,摒弃了边合成边测序的设计思想,采用单条核酸链中不同碱基通过蛋白纳米孔是产生的电流变化来标定碱基顺序,这一独具匠心的设计造就了其U盘大小的体积、多种大分子(蛋白质、RNA、DNA)通吃、单分子超长读取等诸多特殊能力[1]

之后其30%的原始错误率饱受诟病,这其中就包括其首批试用用户伯明翰大学的Nick Loman,他首次试用后发现λ噬菌体的MinION数据因为较高的原始错误率仅有25%可以mapping回参考基因组,表示不好用。

但是短短一年时间里,MinION似乎找到了突破这一窘境的办法,测了埃博拉、分了HLA、装了基因组(酿酒酵母、不动杆菌、大肠杆菌),显示了自己在测序领域中的三代地位[2-5]

小编分析了上述提到的那几个MinION基因组的案例,发现MinION君确实是从PacBio君身上学到了不少东西,虽然两位在测序原理上是天差地别,但所产数据类型很相似的,读取很长(平均读长数Kb级别),原始错误率略高,而学到的主要的东西还是对原始reads的比对、校正思路、算法等,这些帮助了MinION慢慢脱贫致富,以下搜集的两组案例说明了这个问题。

E.coli K12 的纯MinION数据组装

最近(2015年2月)放在冷泉港预印本网站bioRxiv上的一篇单独使用MinION数据组装大肠杆菌E.coli K12基因组到完成图级别的文章便是一个很好的例子,比较巧的是这篇文章的作者便是文章第三段提到的那个嫌弃MinION不准的那个伯明翰大学的Nick Loman教授。

Nick Loman使用了21X的MinION 2D  reads(4 MinION Runs,平均读长~8kb)对E.coli K12的基因组装。DNA链的先导链和滞后链均被测到所产生的reads称为2D (two-Direction)reads,约占总数据的25%。 相较于普通的reads具有更高的准确率,结合新型试剂测序R7.3以及新型的base caller可以使2D reads准确率达到78%-85%,略低于PacBio的85%。

E.coli K12的组装过程也采取了类似于PacBIO组装过程中的先校正后组装的思路。校正过程中采用的DALIGNER比对算法、pbdagcon一致性算法均是之前针对PacBio数据所开发的,最后使用OLC算法的Celera Assembler对校正后的数据(准确度97.7%)进行了组装。

组装得到1条4.6M的contig,基本达到了完成图级别,与E.coli K12参考基因组相比,单碱基准确率为98.4%,有两处组装错误。

这一组装结果已经确实已经显示出了MinION在细菌完成图组装中的优秀性能,准确率方面的问题相信通过后期试剂、算法的更新会有较大的改善。

基于MinION数据的混合组装(不动杆菌 & 酿酒酵母)

除过大肠杆菌E.coli K12的纯MinION三代数据组装,MinION君之前也通过二三代数据混合组装的方式在不动杆菌A. baylyi 与 酿酒酵母S.cerevisiae中进行过尝试。

不动杆菌A. baylyi的二三代混合组装过程使用了23X的MinION数据与50X的illumina数据,利用针对MinION的新型组装算法NaS最终组装得到3条Contig,最后利用MinION数据使用SSPACE做Scaffolding,最终得到1条Scaffold。

酿酒酵母的二三代数据组装过程使用了121X的MinION数据,若干Miseq数据, 采用针对PacBio的PBcR思路进行组装,不过数据校正过程中使用到的比对算法为针对MinION开发的新型比对算法Nanocorr,一致性算法为HGAP中的pbdagcon,最后组装得到的ContigN50 为479kb,单碱基准确率99%以上。

最后,对于 MinION君的前途,不管你看不看好,反正我很看好。

Paper:

[1] Bayley H et al. Nanopore sequencing : from imagination to reality. Clin Chem.  2015

[2] Nicholas J. L et al. A complete bacterial genome assemble de novo using only nanopore sequencing data. bioRxiv . 2015

[3] Madoui MA et al. Genome assembly using Nanopore-guided long and error-free DNA reads. BMC Genomics. 2015 .

[4] Oxford Nanopore Sequencing and de novo Assembly of a Eukaryotic Genome. bioRxiv. 2015

[5] Ron Ammar et al. Long read nanopore sequencing for detection of HLA and CYP2D6 variants and haplotypes. F1000Res . 2015

声明:本文原创,转载请注明来源 。

一项基于PacBio的目标区域测序技术:PacBio-LITS(三代测序那些事儿 第九期)

最近有很多老师询问我们是否可以用PacBio SMRT 长读取技术只对他们感兴趣的基因组区域进行测序,也就是我们常说的目标区域测序,这样一方面节约了研究成本,另一方面也是更重要的一点,解决了基于NGS(传统二代测序)的目标区域测序所遇到的基因组复杂区域的组装及结构变异检出的问题。

该技术确实是可行的,Bayler医学院已经开发了基于NimbleGen 靶向捕获富集技术的PacBio目标区域测序技PacBio-LITS, 其中NimbleGen获技术是由Roche公司开发,可以几天内捕获连续或分散的 5Mb或30Mb基因组区域。该研究成果发表在今年3月份的 BMC Genomics。

对于该技术,我们(Nextomics)还处于研发阶段,参考了贝勒医学院的PacBio-LITS技术思路,成熟产品推出可能还需要些时间,但研发期间我们欢迎合作伙伴的加入。

PacBio-LITS 解读

相关文献:

PacBio-LITS: alarge-insert targeted sequencing method for characterization of humandiseaseassociated chromosomal structural variations .

PacBio– LITS技术路线

gDNA随机打断(g-TUBE)→BluePippin分选→NimbleGen捕获→LM-PCR→PacBio建库测序。见图1

                                                                图1:PacBio – LITS workflow

PacBio-LIST技术论证

研究人员总共制备了5个NimbleGen捕获文库,来自3个个体(HS1011、BAB1123、NA12878)。

捕获过程中使用了两种类型的探针:SMS/PTLS与MHC。其中SMS/PTLS是针对 Potocki-Lupski综合征(PTLS)、Smith-Mangenis综合征(SMS)相关区域设计,捕获区域为17号染色体短臂上的一段7Mb区域。MHC为针对人类HLA基因区域设计,区域大小为4.97 Mb。

HS1011构建了一个~4kb的MHC捕获文库。

NA12878分别构建了一个~6kb的SMS/PTLS捕获文库和一个~4kb的MHC捕获文库。

PTLS个体BAB1123构建了~1kb与~4kb两个SMS/PTLS捕获文库。

使用PacBio RSII对捕获文库进行了测序,各得到~800Mb数据,使用试剂为P5C3。

对测序结果统计显示,~6kb的捕获文库(NA12878,SMS/PTLS)的捕获率最高,~73%(目标区域的reads比对率),平均subreads长度为2.4kb。其次为BAB1123 的~1kb与~4kb SMS/PTLS捕获文库,捕获率分别为69%、65%,平均subreads长度分别为2.2kb与770bp。两个MHC捕获文库捕获率较差,均为~50%。

该结果表明较大的捕获文库较长的reads长度有着更高的捕获率。

PacBio-LITS检测PTLS个体致病区域 17p 11.2 结构变异情况

研究者分别为3个PTLS个体BAB2714、BAB2695、BAB3793构建了~4kb捕获文库,使用了针对17p11.2区域的SMS/PTLS系列探针(NimbleGen),捕获区域大小为7Mb。

将测序数据比对回人类参考基因组GRCh37,利用针对PacBio数据开发的结构变异检测工具PHhoney发现了存在于BAB2714、BAB2695、BAB3793的17p11.2区域的染色体重排现象(也得到了Sanger测序结果的验证)。

其中在BAB2714与BAB3793中发生了LCR(low copy repeat)介导的倒置重排,BAB2695中发生了Alu介导的染色体重排。

声明:本文原创,转载请注明来源。

PacBio SMRT & Structure Variation(三代测序那些事儿 第八期)

这期的三代测序那些事儿,小编要为那些研究人类疾病的小伙伴们献上一款刚刚在BMC Genomics发表(2015-04-22)的结构变异检测神器Parlianment。

文献链接:

http://www.biomedcentral.com/1471-2164/16/286/abstract

Parlianment是由Baylor医学院人类基因组测序中心生物信息学家Adam English领导开发的一个针对人类基因组的结构变异检出流程。小编看着这名字眼熟,百度一下发现原来PBjelly也是出自这位仁兄之手,PBjelly是一款利用PacBio长读取数据对现有基因组进行升级的软件。所以在Parlianment中引入PacBio三代测序数据进行SV检测也就不奇怪了。

这款软件的最大特点便是它能够同时输入多种类型数据进行SV位点的检测,比如Mate Pair / Pair End (Illmina)配对数据、PacBio长读取数据、BioNano光学图谱数据、aCGH芯片数据等,最大限度的检出存在于个人基因组中的结构变异信息,该软件的测试版目前是搭建在DNA云计算公司DNAnexus提供的云端服务器上。Parlianment工作流程见图1。

                                           图1 Parlianment work flow

        该流程首先整合了多款SV检测软件,包括针对Mate Pair数据的SVachra,针对Pair End数据发现小型变异的Breaddancer、Delly、CNVnator、Pindel、Crest、SV-STAT、Tiresias、Spiral,针对PacBio数据的PBHoney等,从而实现了利用多种类型数据检出待选变异位点,之后根据二三代数据的局部混合组装结果(PHRAP软件)、PacBio长读取Reads等进一步筛选出可信度较高的SV位点用于后续的科学研究。

关于该软件的性能,Adam等人使用了2X Illumina Nextera(6.5kb MatePair)、10X PacBio、51X的BioNano、CGH芯片数据(4,200,000个探针)的个人基因组HS1011数据对Parlianment进行了评估。

总共检出了31,007个结构变异位点,大小分布在100bp-1Mb之间。其中7,708个位点有local assembly结果支持(10X PacBio 与 48X illuminePE 利用PHRAP软件混合组装),1103个无组装结果支持的位点有多个类型的数据支持,966个无组装结果支持的位点有PacBio数据与另外一种其他数据支持。

利用Parlianment在个人基因组HS1011上找出了9,777个高可信度的结构变异位点。其中4352个位点比对到了基因组结构变异数据库(Database of Genomic variants, DGV)中,造成这一结果的原因可能是新型变异位点存在或者DGV数据库的不完善。

研究者使用long-PCR手段对这一结果进行了进一步评估。用来验证42个缺失突变(平均长度为10.6kb的)扩增子Sanger测序结果与Parlianment预测结果相差的平均碱基数仅为2个,显示出了预测结果的高度可靠性。

最后研究单独使用Illumina数据或者PacBio数据,检出的可信SV位点分别为3082、4,268,远远少于上述整合多种类型数据得到的9,777个。

到下班点了,小编就不多说了,这款软件的性能到底怎么样,还得小伙伴自己装起来run一下才知道嘛。

声明:本文原创,转载请注明来源。

国内首篇全长转录组新鲜出炉(三代测序那些事儿 第七期)

2015年4月21日Wiley旗下知名植物学期刊The plant journal 接收了中科院药植所的一篇丹参(Salvia miltiorrhiza的文章,国内首篇全长转录组文章也就此诞生(国际上首篇全长转录组文章2013年10月份发表在Nature Biotechnology上[1])。

趁着文章刚出来的那股新鲜劲儿还没过,小编今天就趁热打铁,从专业的角度麻利儿的为大家解读一下这篇号称国内首篇全长转录组的文章。

首先文章做的东西不多,但发了The plant journal,不要眼红,谁让人家用了最新的测序技术抢了国内首篇的头衔。

研究思路

文章的大体思路是从mRNA水平关注丹参中丹参酮(tanshinone)合成途径:

1)借助NGS测序平台Hiseq 2500 检测丹参中与丹参酮合成途径(MEP & MVA)相关的mRNA转录水平,并进行差异表达、共表达等分析;

2)利用三代测序平台 PacBio RSII (P4C2试剂)测序得到的 Isoform (准确的单条转录本信息)进行可变剪接(Alternatively splicing)分析,尤其关注参与丹参酮合成途径相关基因(CYPs、SmCPS1等)。

研究方案

 取样:丹参酮一般认为产生于丹参根部周皮部(因此根部表现为棕红色),研究分别取了根部的周皮(periderm)、韧皮(phloem)、木质部(xylem)部3种类型的根部组织进行了mRNA测序。

 测序:

Hiseq2500部分:3种类型根部样本各设置3个生物学重复,总共9个样本,每个样本产生~5G rawdata 。

PacBioRSII部分:3个样本混合测序,建<1kb、1-2kb、2-3kb、>3kb 四个 SMRTbell 文库,总共产生~4.8G raw data ,~79万 subreads(96%mapping 到了丹参参考基因组上), 根据 ployA 、5 端引物、3端引物信号,筛选得到~22万条全长转录本(full-length reads)。

分析:

1)PacBio数据原始错误率较高 (~15%) ,因此研究者使用了~50G的 Hiseq 2500 数据对 PacBioRSII 平台所产生的 subreads 进行了校正,校正算法为 2012 年 AU 等人发表的 LSC 算法。得到校正后的 subreads 后,再使用 Isoform 识别预测软件 IPD 预测得到了16,241个高质量非冗余 isoform。

2)基于Hiseq2500产生的mRNA数据的差异表达分析中研究者发现了在根部周皮部(periderm)特异表达与者高表达(相较于韧皮、木质部)的丹参酮合成相关基因 SmCPS1、SmKSL1、 GGPS、 IPI、 CYP 等;共表达分析还发现了丹参酮合成相关基因ODDs与SDRs的共表达模式。

3)最后研究者使用得到的16,241个高质量的Isoform进行了可变剪接分析(SpliceMap软件),结果显示,21%的基因发生了内含子保留 (intron retention),4%发生了外显子跳跃 (exon skipping),18%发生了5,剪切 (alternative 5 splice),39%发生了3,剪切(alternative 3 splice),其中包含一些丹参酮合成相关基因,比如 SmAACT3 、SmMK、SmPMK等。

目前,国内外已发表的全长转录组文章还不多,7篇左右,国内也就上述一篇,所以各位小伙伴想发这类文章,可得抓紧。

Paper:

[1] Sharon, Donald, et al. A single-molecule long-read survey of thehuman transcriptome. Nature biotechnology . 2013

[2] Au, K.F et al.Improving PacBio long read accuracy by short read alignment. PLosOne. 2012

[3]Tilgner, Hagen, et al. “Defining apersonal, allele-specific, and single-molecule long-read transcriptome.” PNAS. 2014

[4] Kin et al. “Characterization of the humanESC transcriptome by hybrid sequencing”. PNAS .2013

[5]Zhang, Wei, Paul Ciclitira, and JoachimMessing. PacBio sequencing of genefamilies-a case study with wheat gluten genes. Gene .2013.

[6] Treutlein, Barbara, et al.”Cartography of neurexin alternative splicing mapped by single-moleculelong-read mRNA sequencing.” Proceedings of the National Academy ofSciences . 2014

[7] Ganz, Holly H., et al. “NovelGiant Siphovirus from Bacillus anthracis Features Unusual GenomeCharacteristics.” PloS one . 2014

声明:本文原创,转载请注明来源。

Nextomics产品速递—-基因组denovo 3.0 (三代测序那些事儿 第六期)

在这期的三代测序那些事儿里,小编为大家介绍一个基于PacBio SMRT三代测序技术的新型基因组解决方案“基因组denovo 3.0 ”。该方案是由我们未来组(Nextomics)信息分析部的同事经过两年多时间的研发,各项参数在三四个大型动植物基因组、数百个小基因组的组装过程中反复优化,最终将这一国内目前最给力的基因组解决方案呈现给大家。

在推出我们的基因组denovo3.0之前,先上一个我们最近的一个超高杂合度的植物基因组的纯三代数据组装实例让各位小伙伴感受下:

该植物基因组的杂合度高达耸人听闻的3%,一般情况下杂合度大于0.8%的基因组便被划入了复杂基因组的范畴,3%的杂合度对于玩基因组组装的人来说绝对算的上一个噩梦。

杂合度问题一直是困扰传统的短读长 NGS 测序平台的固疾,因此面对这种超高杂合度的植物基因组,我们直接摒弃了NGS测序平台,转而使用了一种超长读取(平均读长约15kb)的新型测序技术PacBio SMRT,该技术小编已经在前面几期的文章里详细阐述,这里不作过多介绍。

我们使用了70X的纯PacBio数据,利用针对PacBio数据开发的、专门解决二倍体多倍体组装的最新组装算法FALCON对该基因组进行了组装,各项参数经过多个版本的调试,最终得到了ContigN50 值406kb的傲人战绩。与之前国内某巨头公司使用NGS数据组装得到的 18.5 kb 相比,完全高出一个数量级。

当然基因组组装的记过不能只看 ContigN50 指标,毕竟部分组装软件在这个问题上采用了选取最长路径的粗暴做法。因此,我们使用之前得到的该植物的根、茎、叶、穗四个部位的mRNA数据对基因组组装的准确度进行了一个评估,并与之前的NGS组装版本进行了比较,基因区覆盖度结果如下:

穗 PacBio VS NGS 91.09% VS 88.92%;

叶 PacBio VS NGS 87.33% VS 87.98%;

根 PacBio VS NGS 89.41% VS 89.39%;

茎 PacBio VS NGS 91.73% VS 90.20%。

因此,在准确度上,PacBio也是绝对是不输于NGS的。

除过纯三代数据组装,我们二三代数据混合组装的案例杜仲基因组也在去年12月份北京的新闻发布会上为大家呈现过,在这个案例中,我们仅在NGS数据中引入了8.7X的PacBio数据,使用SSPACE、PBjelly、Platanus等软件对这个杂合度大于1%,重复序列比例大于66%的复杂基因组进行了组装,最后的ScaffoldN50接近了1M,通常情况下这一数值小于300kb,详细信息大家可进入链接http://news.china.com.cn/2014-11/26/content_34156870.htm

感受完我们的demo case强力气场后,小编这就拿出我们的基因组denovo 3.0

1)动植物基因组 denovo 3.0

测序平台:PacBio RSII

测序深度:50X-100X(~20kb文库)

预计指标:ContigN50 >500kb ,ScaffoldN50>1M (20X BioNano辅助)

最新科研思路:多倍体起源进化、微进化(泛基因组)等[1-4]

2)微生物基因组 3.0

测序平台:PacBio RSII

测序深度:100X-200X

承诺指标:细菌完成图(No GAP ,NO N);

真菌接近完成图(ContigN50>800kb);

5mC、4mC、6mA修饰位点检出

最新科研思路:致病菌相关研究[5-8]

最后欢迎访www.nextomics.cn了解更多的三代测序产品。

Paper:

[1] De novo assemblyof soybean wild ralatives for pan-genome analysis of diversity and agronomictraits.

[2] Highly evolvablemalaria vectors: the genomes of 16 Anopheles mosquitoes .

[3] Earlyallopolyploid evolution in the post-neolitihic Brassica napus oilseed genome.

[4] Achromosome-based draft sequence of the hexaploid bread wheat (Triticumaestivum) genome

[5] The extant Wordwar1 dysentery bacillus NCTC1: a genomics analysis.

[6] Single- moleculesequencing to track plasmid diversity of hospital-associated carbapenemaseproducing enterobacteriaceae.

[7] Emergence ofscarlet fever Streptococcus pyogenes emm12 clones in Hong Kong is associated withtoxin acquisition and multidrug resistance.

[8]A random six-phse switch regulates pneumocaccalvirulence via global epigenetic changes.

表观&PacBio(三代测序那些事儿 第五期)

对于表观研究者来说,DNA修饰位点的检测肯定是一项日常工作。

基于重亚硫酸盐处理的BS-seq是目前主流的修饰位点检测方法,在其基础上还衍生出一系列的改进型技术,比如 PBAT、oxBS-seq、RRBS、TAB-seq,其中oxBS-seq、TAB-seq可用于检测5hmC[1-5]

这些方法的问题在于检测类型仅局限于高等真核生物中常见的5mC或者5hmC。

对于其他类型的DNA修饰,如 6mA、4mC、PT、8-oxoG等,传统做法往往是借助MS(质谱)、HPLC(高效液相色谱)等大型设备,操作复杂,成本高昂,不太适合中小型研究。

这些修饰或处于原核生物的 R-M(Restriction-Modification)防御系统,或处于基因转录调控网络之中,或与基因组复制有关,或影响着肿瘤的发生。最近中科院动物所的研究人员甚至在高等真核生物果蝇中也发现了6mA的修饰形式,成果公布在2015年4月份的Cell上[6]

Sanger方法虽能够检测细菌中常见的3中碱基修饰4mC、5mC、6mA,但一直没能够大规模的应用于细菌全基因组碱基修饰位点检测,原因主要在于其较小的通量,不适合组学研究背景下的表观研究。

因此, 5mC、5hmC之外的DNA修饰(4mC、6mA、PT等)似乎成了近年表观研究中缺失的一环。PacBio SMRT君的出现弥补了缺失的这一环。

小编在前几期的文章中提到过,PacBio测序过程中,不近可以记录碱基先后顺序,同时也记录了DNA聚合酶两个重要的动力学信息:Interplus Duration (IPD)、Plus Width(PW)。

IPD代表了相邻两个碱基渗入模板链的时间差、PW代表了碱基渗入到模板链所需的时间。IPD 与 PW反映了聚合酶的合成速度。

        

        PacBio研究人员最早是通过统计一段人工合成的,由35个碱基组成的,修饰位点已知的DNA链中各个碱基的IPD值,发现了碱基修饰对DNA聚合酶合成速度的影响。如图2所示,在6mA、5mC、5hmC修饰位点以及上下游几个碱基处的IPD(T-test,IPD均值简单比较)值均明显高于对照组(无修饰位点)位点。反映了DNA聚合酶在修饰位点以及附近合成速度有所下降,且三种碱基修饰类型对于DNA聚合酶的影响模式又有着各自的特点。

该研究还将IPD与PW分别作为PC1 、 PC2 对 5hmC、5mC、C进行了PCA聚类,结果见图3,成功通过 IPD 与 PW 两个值区分了5mC、5hmC。

这些发现提示了利用PacBio测序过程中记录的碱基IPD值推测DNA碱基修饰位点是可行的[7]

        之后PacBio研究人员建立了利用IPD值预测DNA碱基修饰位点的数学模型。该模型是基于条件随机场模型(Condition Random Filed, CRF), 充分考虑了修饰位点对附近碱基合成速度的影响的影响以及碱基之间的相互影响。相较于之前只考虑修饰位点单个碱基,做简单的T-test(比较每个位点IPD均值,丢失了位点修饰比率信息),该模型对修饰的预测更加灵敏与全面。

        相关数学模型(考虑了与附近碱基之间的相互影响θ1、θ2、θ3)

研究人员使用修饰位点已知的大肠杆菌质粒(5mC)、人工合成DNA链(8-oxoG)的PacBio数据对这一模型的各项参数进行了训练。并使用了受试者工作特征曲线(receiver operating characteristic curve, ROC)对该分类模型的可靠度进行了评估,评估结果显示,无论是有监督还是无监督学习模式,该模型可以在5%的假阳性率(FPR)内鉴定出接近 100% 的5mC、8-oxoG修饰位点。

        

        

        5mC、8-oxoG预测ROC曲线

使用上述训练好的模型(FDR设置为 5%)对甲基化酶缺陷菌株EcoK-,dam-/dcm- E.coli 包含质粒pRRS( 可表达Dam )的甲基化位点进行了预测,Dam一般被认为仅可对GATC中的A位点进行6mA修饰,该质粒含有24个GATC 序列,预测结果为24个GATC中的A均发生了6mA修饰,与预期相符[8]

上海交通大学的研究团队还与 PacBio 合作,在大肠杆菌菌株与弧菌属中建立了使用PacBio数据预测磷硫修饰(PT,新型的DNA骨架修饰)位点的分类模型,该模型基于上述提到的T-test算法,成果发表在2014年的Nature communication 上 [9]

随着预测模型的不断完善,基于PacBio SMRT的DNA修饰位点检测技术也越来越多的被应用到表观研究中,一些重要的致病菌研究包括沙门氏杆菌、肺炎链球菌、沙雷氏菌的表观研究已经应用了这一技术[10-12]

基于相关的文献以及PacBio官方推荐,我们(Nextomics)已经推出了基于PacBioSMRT 技术的 4mC、5mC、6mA检测产品,具体方案请参考我们最新的产品手册或电话咨询我们。

Paper:

[1] shotgun bisulphite sequencing of the Arabidopsis genome re veals DNA methylation patterning Highly intergrated single-base resolution maps of the epigenome in Arabidopsis.

[2] Amplification-free whole-genome bisulfitesequecing by postbisulfite adaptor tagging.

[3] reduced representation bisulfite sequencing for comparative high resolution DNA methylation analysis.

[4] Quantitative sequecing of 5-formylcytosinein DNA at single-base resolution.

[5] Base-resolution analysis of 5-hydroxymethycytosine in the Mammanlian genome.

[6] N6-Methyladenine DNA modification in Drosophila.

[7] Direction detection of DNA methylation during single-molecule,real-time sequencing.

[8] Modeling kinetic rate variation third generation DNA sequencing data to detect putative modification to DNA bases.

[9] Genomic mapping of phosphorothioates reveals partial modification of short consensus sequences.

[10] A random six-phse switch regulates pneumocaccal virulence via global epigenetic changes.

[11] DNA phosphorothioate modifications influence the global transcriptional response and protect DNA from double-strand breaks.

[12] Exploring the roles of DNA methylation in the Metal-reducing bacterium Shewanella oneidensis MR-1.