Pacbio SMRT君的逆袭—算法篇(三代测序那些事 第四期)

可靠消息,国内某测序巨头准备引进Pacbio SMRT测序平台PacBio RSII系统开始进军三代测序市场,按照惯例,其他小巨头也会紧随其后,所以,小编深深觉得,今年国内肯定要刮起一阵不小的三代测序风,三代测序市场的竞争也将变得激烈起来。

从09年PacBio RS首批测试数据公布暴露出15%的原始错误率(主要为InDel错误)后开始遭人诟病到13年PacBio SMRT首次进入中国市场(Nextomics首家推出)而又普遍不被看好再到如今被国内主要NGS测序公司争相追捧,在小编看来,这算得上是PacBio SMRT君的一次华丽逆袭。

这期,小编将为大家盘点那些让PacBio SMRT君华丽逆袭的那些算法。

显然,直接使用原始错误率为15%且大多数为InDel错误的Reads进行基因组拼装是不可行的,因为大多数基因组组装软件所能忍受的Reads上限错误率<~5%-10%。因此对PacBio RS平台所产生的Reads(错误随机分布)进行比对 & 校正成为了此类数据应用于基因组组装的第一步。

然而大多数比对软件主要是针对高准确率短读长的NGS测序数据设计,比如 SOAP、Bowite、BWA、Maq、SHRIMP、ELAND等,无法对这种读长为数kb、原始错误率15%的三代数据进行比对,虽然在BWA基础上修改得到的可容忍较高错误率且能够进行长读长数据进行比对的BWA-SW却有着比对率不高的缺点。

以下两款专门针对PacBio数据的新型比对软件的出现改变了PacbioSMRT君的这一窘境,也开启了PacBio君的逆袭之路。

NO.1 BLASR (主要针对微生物基因组)

BLASR是基于经典动态规划思想设计的局部比对软件,使用了BWT(Burrows-wheeler Transform)格式的索引结构进行匹配区域快速定位,对于候选匹配区域与最终匹配区域的确定使用了运算速度更快的稀疏动态规划算法(Sparse Dynamic Programing)。

加利福尼亚大学的软件开发人员首先使用产生于大肠杆菌E.coli OH104:H4基因组的48X的PacBio数据(10.7% insertion、4.3% deletion、0.9% substitution)对BLASR的mapping 率、mapping速度进行了评估,结果显示,BLASR mapping率为90%,高于BWA-SW的50%,运行时间为20min 54 S ,小于BWA-SW的434 min 5S。

为了评估该软件的mapping准确率,软件开发人员使用了大肠杆菌基因组的Pacbio 模拟数据对基因组进行mapping,结果显示90%以上的reads mapping 准确度在99.99%以上。见图8[1]

        BLASR凭借其优秀的mapping品质与多款Consensus算法软件(AMOS、Quiver、PBDAG-Con等)一起构成了多款后来出现的针对Pacbio数据的基因组组装软件的核心校正算法,这些软件包括二三代混合组装软件PBcR-BLASR、AHA,纯三代组装软件HGAP。

其中纯三代组装软件HGAP(Hierarchical Genome-Assembly Process)是一款基于分级组装思想的基因组组装软件。其大致流程为:

1)挑选较长的reads作为seed reads(>6kb)

2)使用BLASR将较短的的reads mapping 的seed reads上,使用PBDAG -Con一致性算法对reads进行校正并进行预组装

3)使用CA算法对预组装得到的准确率较高的长Reads进行组装

4)将原始reads mapping回组装好的基因组,使用新型一致性算法Quiv er对所得基因组进行进一步校正,最终得到准确率大于99.9999%(QV60) 的高质量的微生物基因组图谱。大致流程见图1。

        Stephen Turner等人分别使用了100X、90X、100X的大肠杆菌、栖热菌、肝素黄杆菌PacBio数据对HGAP的组装效果进行了评估,组装结果中Contig数分别为2、3、1[1]

随着Pacbio SMRT的读取长度、运行通量的增加,之前出现的二三代混合组装软件相较于纯三代组装软件HGAP,无论是在测序成本还是组装指标均没有优势,因此,这种二三代混合组装的策略在微生物基因组组装中慢慢被淘汰,对于之前提到的那些二三代混合组装小编就不做过多赘述[3][4][5]

NO.2 MinHash(针对大型动植物基因组)

MinHash也是一款基于经典的动态规划思想设计局部序列比对软件,与BLASR不同的是,它采用了最小哈希算法(MinHash)实现了匹配区域的快速定位,该过程如图1所示。

        

        大致流程为:1)reads Kmer化, 2)将Kmer通过 Hash方程转化为整数格式的fingerprints,3)挑选各自fingerprint最小的Kmer组成用于比对的Kmer集合Sketch 4)使用Jaccard相似度计算Kmer相似度 5)若相似度超过阈值,则返回基因组区域使用动态规划算法详细比对 6)找出匹配区域。

包括Pacbio 的Chen-Shan Chin在内的软件开发人员使用拟南芥、果蝇、人类的PacBio测序数据评估了MinHash算法在大型基因组测序数据比对过程中的性能。结果显示Mapping率在80%左右,准确率均在90%以上,而运行时间仅为15-21 CPU h ,而另一款主要应用于微生物基因组数据比对的BLASR的在大型基因组测序数据比对时运行时间高达上百 CPU h [6]。

之后软件开发人员将MinHash结合新型Consensus软件FalconSense,再整合到OLC组装算法软件Celera Assembler(CA)中得到了大型基因组纯三代组装算法PBcR-MinHash。软件开发人员分别使用了121X、144X、54X的果蝇、拟南芥、人类葡萄胎的Pacbio数据对PBcR-MinHash的组装性能进行了评估,三个物种的ContigN50分别达到了11Mb、20Mb、4Mb。

至此,PacBio SMRT君通过内在的修为弥补了表面缺陷,完成了自己的逆袭之路。

未来组生物(Nextomics Biosciences)基于HGAP已经推出了多款微生物基因组完成图产品,在动植物基因组方面也成功召开了基于三代测序技术的杜仲基因组新闻发布会,感兴趣的小伙伴可以电话或邮箱联系我们。

Paper:

[1] Mark J Chaisson et al. Mapping single molecule sequencing readsusing basic local alignment with successive refinement (BLASR): application andtheory. BMC Bioinformation . 2012

[2] Stephen W Turner et al. Nonhybrid, finished microbial genomeassemblies from long-read SMRT sequencing data. Nature Mehods. 2013

[3] Sergey Koren et al. Hybrid error correction an de novo assembly ofsingle molecule sequencing reads. NatBiotechnol . 2012

[4] Ali Bashir et al. A Hybrid Approach for the Automated Finishing ofBacterial Genomes. Nat Biotechnol .2012

[5] Filipe J Ribeiro et al. Finished bacterial genomes from shotgunsequence data. Genome Research. 2012

[6] Konstantin Berlin et al. Assembling large genomes with singlemolecule sequencing and locality sensitive hasing. Bio Rxiv. 2014

声明:本文原创,若转载,请注明来源

三代测序那些事儿(第三期)

世界那么大,我想去看看,但钱包和老板不让。

所以,小编只能暂时继续安分的坚守在工作岗位上挥发自己的光和热。

好了,言归正传,上期为大家盘点了那些使Pacbio SMRT异军突起的核心技能,加上第一期中提到的该测序君在亚洲人类基因组计划中的强悍表现,相信大家已经感受到了Pacbio SMRT君那点超凡脱俗的小气质。

超凡脱俗的气质的养成还得从Pacbio SMRT君的诞生过程说起。

小编搜罗整理了从2003年Pacbio SMRT君最核心元件ZMWs概念出现到2011年Pacbio SMRT君在海地霍乱菌研究中的牛刀初试之间的7篇Paper以及相关事件,这7篇Paper基本构成了Pacbio SMRT君的诞生简史,也是大家想要了解Pacbio SMRT君不得不读的Paper。

这期小编将为大家奉上这7篇文献及其解读,继续帮助想要了解三代测序的小伙伴快速入门。

源于微波炉门的灵感让当时还在康奈尔大学读研的Stephen Turner 与 John Korlach两个人想到了一个实现生物反应过程单分子检测的巧妙想法,利用一个超级微缩版的微波炉门ZMWs结构来检测单条DNA链的合成过程,这一猜想很快被他们发表在2003 Since上的一篇Paper论证,接下来便是一个微波炉门引发的测序技术PacbioSMRT的诞生之路。

Paper1 便是对那个“微波炉门猜想”的论证。

Paper 1(2003年):

Zero– Mode Waveguides for Single-Molecule Analysis at High Concentrations .

该研究中,Stephen Turner(Pacific Biosciences创始人)等人论证了利用一种称为零模波导(Zero-Mode Waveguides,ZMWs)的金属穿孔状元件在生物反应浓度(μM)条件下进行单分子检测的可行性。

该孔状结构直径在100nm左右,使用波长为几百纳米(>1.7倍孔径)的激发光从孔底部射入时,无法在孔中传播(孔中无光模式存在,因此称为零模波导ZMWs),只能在ZMWs底部衍射形成一个极小的激发场/观测体积(observation volume)。

经推算,该激发场的体积在仄升(10-21L)级别,相当于在μM体系中该激发场中仅存在单个荧光标记分子(有效的排出了DNA测序过程中背景荧光的干扰)。

研究最后,Stephen Turner等人利用ZMWs结构对单条M13噬菌体DNA链的体外合成过程进行了监测,使用香豆素标记的dNTP(7.5μM)作为反应指示物,监测得到的合成时间(30min)、合成速度(10 to 15 bases per second)等参数与预期相符。

研究结构证明了Stephen Turner 等人可利用ZMWs进行生物反应过程单分子检测(单条DNA链合成过程监测)的猜想是正确的,大约在10年后由Pacific Biosciences公司发布的DNA单分子实时测序平台Pacbio RS便是采用这一结构(SMRT Cell)实现了单分子测序。

2004年,致力于一种单分子测序平台研发的PacificBiosciences公司(以下简称Pacbio)成立(来自维基百科),Pacbio SMRT君的诞生之路也正式开始。

Paper2(2008年):

Long, processive enzymatic DNA synthesis using 100% dye-labeled terminal phosphate-linkednucleotides.

该研究中,Stephen Turner等人针对正处于研发阶段的Pacbio RS系统开发了一种新型的dNTP荧光标记技术。

摒弃了当时主流NGS测序技术中将荧光基团标记于dNTP碱基的做法,而是将荧光基团标记于dNTP的磷酸链末端(参照2005年一篇HIV反转录酶研究中的dNTP标记方法),合成过程中,荧光基团随着焦磷酸基团被聚合酶自然切除,不会渗入到合成的DNA链中,无需各类洗脱试剂,最大限度的保持了DNA聚合酶的活性。

Stephen Turner等人使用一个人工合成的环状(72bp)DNA作为模板,Ф29聚合酶介导的,磷酸链末端荧光标记的dNTP作为反映底物的 PCR反应对该类新型荧光标记dNTP读长潜力进行了测试,琼脂糖凝胶电泳结果显示,5min后扩增长度达到3kb(未标记dNTP对照组 4.5kb,碱基标记dNTP对照组无扩增条带),20min后扩增长度达到了10kb。

该结果显示了此类新型dNTP标记技术带来的边合成变测序过程中(SBS)超长读取潜力,这一技术使日后的Pacbio SMRT君具有了超长读取的能力,避免了另一位在上期提到的三代测序君HeliScope出师未捷身先死的悲剧。

Paper3(2008年):

Parllelconfocal detection of single molecules in real time.

在该研究中,Pacbio工程师门描述了一种内置有可产生数千个激发通道的全息相位掩膜(holographic phasemask,HPM)与高帧率(100HZ)电子倍增CCD相机(EMCCD)的荧光共聚焦显微镜系统,该系统被整合到了后来的Pacbio RS平台中,实现了对DNA测序过程中的实时监测,得到了DNA聚合酶的动力学信息,为后续的碱基修饰信息挖掘提供了数据支持。

至此,Pacbio SMRT君已初具雏形,Pacbio公司也于2009年公布了Pacbio RS的首批测试数据,并对其所产生的数据特点进行分析。

Paper4(2009年):

Real-timeDNA sequencing from Single Polymerase Molecules(1).

在这篇研究中,Stephen Turner等人主要对刚刚公布的Pacbio RS首批测序数据特点(一个72bp人工的环形DNA模板与一个150bp线性DNA模板下机数据)进行了分析。

读长评估:

环形DNA模板测序下机数据显示(仅标记dCTP dGTP),DNA聚合酶活性通常可以持续数千秒,平均读长1kb,部分读长超过4kb,聚合酶活性持续1小时以上,聚合酶基本保持了其内在的合成速度2~4 bases/s。

准确率评估:

线性DNA模板测序下机数据显示(标记所有类型dNTP),提取其中一条158bp的read比对回模板链,发现了27个测序错误,12个单碱基缺失错误,8个单碱基插入错误,7个错配错误,原始错误率17%。

进而对提取出的449条reads做同样分析,发现缺失错误占主要部分(7.8%),插入错误其次,错配错误所占比例最小(主要为C/G错误)。

通过对上述449条reads中每个碱基对应的脉冲宽度(plus width)与脉冲间隔(interplus duration)进行统计分析,显示这两个参数非常稳定,与序列碱基无关,因此,测序过程中的原始错误时随机分布的,无碱基或者序列偏好性。

最后研究者使用15X测序深度的线性模板测序数据得到了准确率99.3%的一致性序列。

Pacbio SMRT的初测基本取得了预期效果,首批测序数据的特点分析也为后期配套软件的开发提供了方向。

随着测序试剂的更新换代以及新型校正算法的出现,目前的Pacbio RSII的平均读长已达15kb,50X-100X测序数据可产生准确率为  99.9999%(Q40)的一致性序列。

Paper5(2010年):

Real-timeDNA sequencing from Single Polymerase Molecules(2).

初测数据公布后的,Pacbio也于2010年开始对部分客户发售其第三代测序平台Pacbio RS进行早期的客户评估,这些客户包括贝勒医学院、冷泉港、马里兰大学、哈佛医学院等顶级科研机构。

Pacbio在同年的这篇Paper基本为一个Pacbio RS 系统说明书,其中包含了系统的主要组成部分以及操作分析流程,这里不作过多介绍,有兴趣的小伙伴可以自行下载阅读。

Paper6(2010年):

Awindow into third-generation sequencing .

Pacbio RS系统开始进行早期客户测试的同年,Pacbio公司发表了第一篇介绍Pacbio SMRT的综述性文章,为其发售助势。

在这篇文章中,Stephen Turner等人对其第三代测序平台结构、原理、优势进行了综合论述,同时概括了Sanger、NGS测序技术发展史与其他类型的三代测序技术。

详细内容在前两期以及本期其他文献部分均有体现,此处不做过多介绍。

2011年6月份,新英格兰杂志NEJM发表了Pacbio SMRT在海地霍乱弧菌研究中应用,标志着Pacbio SMRT开始真正应用于科学研究,Pacbio SMRT君正式开始了其在科研道路上的探索。

Paper7(2011年):

Theorigin of the Haitian Cholera outbread Strain.

该研究中,哈佛医学院的研究人员利用Pacbio SMRT技术对2株分离于2010海地霍乱爆发中的霍乱弧菌H1、H2以及另外3株分别分离于拉丁美洲、南亚霍乱爆发中的霍乱弧菌C6、M4、N5进行了测序,研究者使用了环形一致性读取(circle consensus sequencing ,CCS)方式。

为确定海地霍乱爆发中霍乱弧菌的传播源,研究者首先比对了上述H1、H2、M4、C6、N5 以及之前基因组已经发表的其他23株霍乱杆菌中1588个保守基因区域的CCS reads,通过单核苷酸突变(single nucleotide variation,SNVs)位点信息,得出海地霍乱弧菌H1、H2与分离于孟加拉国的霍乱弧菌M4、CIRS101有着非常近的亲缘关系。

研究者进一步利用pacbio SMRT技术长读长的优势(H1、H2测序平均读长954bp,5% > 2.8 kb),将H1、H2、M4所有CCS reads比对到参考基因组N16961上,检出了Superinetegron、VSP2 等基因组热点重组区域的结构变异(Structural Varition,SV)位点信息,SVs信息显示,相较于M4,H1、H2与CIRS101有着更近的亲缘关系。

该研究表明2010年爆发于海地的霍乱弧菌很可能来源于2002年孟加拉国的一场霍乱弧菌爆发。

2011年,Pacbio公司开始商业发售期第三代测序平台Pacbio RS,Pacbio SMRT君也开始了进军全球的步伐。

想要了解更多三代测序信息,就关注我们的微信公众平台吧,微信号Nextomics,这个平台绝对只送干货。

声明:本文原创,转载请注明来源

三代测序那些事儿(第二期)

上期和大家分享了几个三代测序技术在基因组组装中的应用案例,无论是在大型的基因组组装项目亚洲人基因组计划、还是在复杂致病菌基因组(痢疾杆菌、幽门螺杆菌等)测序项目中,三代测序技术 PacBio SMRT 均有着不俗的表现。

这期,小编将结合几篇文献为大家盘点那些使PacBio SMRT迅速崛起的特殊能力。

NO.1 单分子测序

能力描述:

首先要提到的是PacBio SMRT测序平台PacBio RSII的单分子测序能力,这在其他的两个三代测序平台 HeliScope & MinION 也有所体现,这也成了三代测序区分于二代测序的一个标志性特征。

HeliScope 是 Helicos 公司于2008年推出的全球第一台三代测序平台,但由于读长(35bp)、售价等原因在推出后的几年内便惨淡退出测序市场,Helicos公司也于2012年申请了破产保护。 Oxford Nanopore 公司的便携式纳米孔测序 ( Nanopore Sequencing ) 仪MinION目前还处于早期的客户测试阶段,首批测试数据的平均读长已达到了5.4kb,还是有较好的市场潜力。

单分子测序过程通常无须PCR(二代测序中为了将目的荧光信号从背景荧光中区分出来,测序前需要对单条模板链PCR成簇,以放大检测信号)过程,避免了二代测序常遇到的GC偏好性 ( GC bias ) 问题,因此 PacBio RSII 所产生的数据具有极低的GC偏好性,这种数据对于组装高GC基因组或者基因组中高GC区域是非常有利的。

另外, PacBio RSII 单分子测序的特点也使该平台在碱基读取 ( base calling ) 过程中不会出现二代测序平台常遇到的移相(dephasing)问题,所产生的数据更加准确,目前 PacBio RSII 所产生的数据一致性准确率 ( consensus accuracy ) 可达99.99%,如果使用新型一致性算法Quiver,一致性准确率可进一步提高至99.9999%。

相关案例:

1)PacBio SMRT组装高GC基因组相关案例:

Advantages of Single-Molecule Real-Time Sequencing in High-GC Content Genomes

韩国极地研究所研究团队使用 PacBio RS ( Pacibo RSII 早期型号)平台对一株分离与南极乔治王子岛的 Streptomyces 菌株进行了测序,该菌株基因组 GC 含量高达 71%,之前使用 200X 的 Hiseq 2000 数据进行过组装,仍没有获得完整的基因组,组装产生了185 个 contigs , 随后使用 Sanger 法也仍然无法有效填补。随后研究人员使用仅15 X 的 PacBio SMRT 数据 ( CCS reads + long reads ) 就得到了26个 contig 的组装结果,与二代组装结果比较,发现,二代组装结果中大多数难以填补的Gap多为一些高 GC 区域。

2)PacBio SMRT组装基因组中高GC区域相关案例:

Resolving the complexity of the human genome using single-molecule sequencing

同样地,华盛顿大学的研究团队使用 PacBioRSII 平台对一个人类葡萄胎基因组 ( CHM1 ) 进行了测序,将测序数据 mapping 回人类参考基因组 GRCh37 上,在 GRCh37 GAP区域进行了局部组装 ( local assembly ) ,该研究填补和缩小了人类参考基因组 GRCh37 上接近100个 Gap,这些 GAP 大部分处于高 GC 和重复区域,其中包括一些重要基因表达调控元件。

能力小结:

上述两个案例再次证明了,PacBio RSII平台所产生的极低GC偏好性的数据在高GC基因组或高GC区域的组装中确实有着显著的优势。

对PacBio RSII实现单分子测序的技术原理感兴趣的小伙伴可阅读Stephen Turner ( PacBio 公司创始人 ) 等人在2003年发表在 Science 上一篇关于 ZMWs 的经典文献:

  1. W. Turner, et al. Zero-Mode Waveguides for Single-Molecule Analysis at High Concentrations. Science. 2003

NO.2 超长读长(super long-read)

能力描述:

吸取了Helicos公司在三代测序平台开发上的失败经验,PacBio公司在单分子测序的基础上又进一步开发了一套使其三代测序平台 PacBio RSII 更加完美的长读取技术,主要是利用了一种将荧光染料标记于磷酸链末端的dNTP作为边合成边测序(Sequencing by synthesis ) 时的反应底物,聚合反应时,荧光基团可随着焦磷酸基团被DNA聚合酶自然切除,无需其他化学试剂洗脱,最大限度保护了DNA聚合酶活性。

基于该技术,PacBio RSII使用最新的P6C4试剂使测序平均读长由原来的P5C3的8.5 kb 又进一步提高到了10kb-15kb,而早在2005年就诞生的第二代测序技术的读长水平目前还徘徊在数百bp。

PacBio RSII 目前的平均读长(10-15kb)超过了大部分细菌基因组中最大重复区域长度 & 一些小基因组大小(部分病毒基因组、动物线粒体基因组、大部分质粒) & 普通转录本长度。因此,无论是在对于基因组的组装,还是对于转录组的Isoform识别,PacBio SMRT均有着其他测序技术无法比拟的优势。

相关案例:

1)PacBio SMRT在高重复高杂合基因组组装中的应用案例:

杜仲基因组是一种高重复高杂合的基因组,杂合率>1%,重复序列在66%以上,为了解决这类复杂基因组的组装,未来组生物使用了10X PacBio SMRT 长度数据,通过新开发的组装流程,结合第二代测序数据,使得Scaffold N50达到932kb(第二代测序组装对于解决复杂基因组组装存在一定的瓶颈,一般会导致Scaffold N50 小于300kb),这一成果也在去年的《杜仲全基因组测序重要研究成果》北京新闻发布会上进行了展示。

能力小结:

除过基因组组装外,Pacbio SMRT 也被应用于转录组测序中,由于超长的读长能够使其直接读取完整转录本,无需拼装,该技术已被应用于可变剪辑、基因融合、lncRNA 等转录组分析,从2013年至今,已有数十篇该类文献发表,小编挑了一些比较有代表性的供大家参考。

[1]Sharon, D. et al. A single-molecule long-read survey of the human transcriptome . Nature Biotechnology. 2013.

[2] Tilnger, H. et al. Defining a personal ,allele-specific,and single molecule long-read transcriptome. PNAS. 2014.

[3] Zhang, W. et al. PacBio sequencing of gene families — A case study with wheat gluten genes . Gene . 2014.

NO.3 碱基合成动力学信息记录

能力描述:

PacBio SMRT采用新型的核苷酸荧光标记技术,实现了边合成边测序(Sequencing by Synthesis)过程聚合反应的连续进行,PacBio的工程师们使用了一台内置有帧率100HZ的电子倍增CCD(EMCCD)相机的共聚焦荧光显微系统实现了对这一过程的实时(Real-time)监测,因此Pacbio RSII 在记录碱基先后顺序的同时也记录下了碱基渗入模板链的速度(碱基合成的动力学信息),DNA聚合酶在甲基化修饰或者磷硫修饰位点处反应速度有所降低,在合成动力学信息中,则表现为荧光脉冲信号的延迟(increased interpluse duration,IPD )。基于此原理,PacBio RSII在DNA序列测定的同时获得了其甲基化修饰位点信息。

相关案例:

1)PacBio SMRT在甲基化修饰位点检测中的应用:

Genome-wide mapping of methylated adenine residues in pathogenic Escherichia coli using single-molecule real-time sequencing

布莱根妇女医院(Brigham and Women’s Hospital,BWH)等机构的研究人员利用了PacBio SMRT测序技术对溶血性尿毒病原菌E.coli O104:H4基因组中的化学修饰位点进行了测定(190X测序数据),分析了基因组中的5mC与6mA修饰,由此绘制了全球首张致病菌全基因组水平甲基化修饰位点图谱。

2)PacBio SMRT在磷硫修饰位点检测中的应用:

Genomic mapping of phosphorothioates reveals partial modification of short consensus sequences

来自上海交通大学的研究团队利用 Pacbio RSII 对大肠杆菌基因组中的磷硫酰化修饰(PT)位点进行了测定,绘制了全球首张细菌全基因组水平磷硫酰化修饰(PT)位点图谱。

能力小结:

DNA化学修饰位点检测是表观遗传学研究的重要内容,基于PacBio SMRT 的 DNA化学修饰位点检测技术操作更加简单(无需重亚硫酸盐处理)、表观修饰检测类型更加多样、准确性更高等优点。

小编还意犹未尽,但限于篇幅,今天只能到这里了,下期接着聊。下期将为大家聊那些为三代而生的算法们,敬请关注!

本文原创,若转载,请注明来源。

三代测序那些事儿(第一期)

第三代测序技术是近些年来出现的新型测序技术(其原理小编将会通过后续的文献解读为大家详细解读),其特点是能够实现了对单条DNA链合成过程的检测,这其中又以美国太平洋生物公司(Pacific Biosciences,以下简称Pacbio)开发的Pacbio SMRT测序技术为代表(其测序平台Pacbio RSII是目前唯一在商业化运行的三代测序平台),超长读长、极低GC偏好性、DNA碱基修饰直接读取的特点使Pacbio SMRT测序技术在基因组、转录组、表观组研究等方面有着明显的优势[1]。小编从在这一期开始将会通过文献解读的形式和大家一起聊聊三代测序(Pacbio SMRT)那些事儿,小生才疏学浅,只当抛砖引玉。第一期是小编码的一篇关于Pacbio SMRT技术的微型综述,从第二期将会开始文献解读。

先从三代测序(Pacbio SMRT)与基因组的那些事儿聊起。

话说最近的基因组生物学技术进展大会(AGBT)公布了亚洲人基因组计划最新进展,该计划是于2014年启动的大型国际基因组项目,目前使用Pacbio RSII平台与BAC克隆相结合的方法得到了最优的亚洲人基因组组装结果,72X覆盖度的基因组数据,高达13.4kb的平均读长,应用Dalingner及FALCON进行组装,contigN50高达7.3M。可见该技术确实在基因组组装方面有着很大的优势。

Pacbio SMRT测序技术出现之初,冷泉港、马里兰大学的研究团队就使用多种模式生物对该技术在基因组组装方面的性能进行了评估,这些模式生物包括大肠杆菌、酿酒酵母、拟南芥、果蝇等,组装的ContigN50达到了Mb级别,组装品质已经相当优秀 [2]。

而随着后续新型测序试剂的发布(P5-C3、P6-C4等)与各类校正、组装算法的出现(HGAP、Dalingner、FALCON、MHAP等),Pacbio SMRT技术在基因组组装方面的性能又得到了进一步的提升,尤其是在微生物基因组组装领域,这类研究成果也如雨后春笋般大量出现在各类重要杂志上,小编选了一些该领域内比较有代表性的成果展示给大家:

1)Sanger研究院使用Pacbio SMRT技术构建了一株分离于第一次世界大战的痢疾杆菌NCTC1的完整基因组图谱,建立了高标准的该类病原菌参考基因组,该成果发表在2014年11月份的顶级医学杂志《柳叶刀》上[3];

2)美国国立卫生研究院(NIH)使用该技术对20多株抗碳青霉烯类肠杆菌(最近几年美国频频出现的“超级感染细菌”)进行了基因组测序,得到了完整的基因组与相关的抗性质粒图谱,揭示了该类致病菌在医院中的传播规律,结果发表在2014年9月份的《转化医学》杂志上[4];

3)最近日本研究人员使用该技术测序得到了8株分离于冲绳的幽门螺杆菌完整基因组图谱,这类基因组属于高重复、低GC类型,传统的测序平台往往难以得到高质量的基因组图谱,后续的生物信息分析目前还在进行中,这一成果发表在2015年3月份的Genome Announcements杂志上[5]。

在过去的2014年里,Pacbio的SMRT技术发表在多个重要期刊上,而仪器销量也节节攀升,代表了它的价值为更多人所认可。题外话,同属于第三代测序的Oxford Nanopore测序技术目前还在测试之中,30%的原始错误率与100多M的运行通量可能导致其在短期内还无法大规模应用于基因组de novo测序中,但其便携的小巧的测序平台(MinION,U盘大小)、极简的建库过程、多类型分子测序能力(DNA、RNA、蛋白质)还是非常值得期待滴[6]。

我们未来组2013年推出了基于Pacbio RSII系统的第三代测序服务,是国内首家提供第三代测序服务的公司,经过两年的发展,已经积累的第三代测序项目经验,看完上面介绍对第三代测序有点心动的小伙伴可以电话邮件联系我们哦,我们的热线电话:400-027-1221,我们的邮箱:support@nextomics.org。

估计各位客官看完上面那点点介绍,还是对Pacbio SMRT这一第三代测序技术一头雾水,不过不用着急,小编精心搜罗了从2003年(该技术概念出现之初)至今的几十篇具有代表性的三代测序相关文献,在接下来的几十期里将会按照Pacbio SMRT技术的发展线为大家详细解读。

今天先说到这,下期继续聊,期待小伙伴们的关注。

Paper:

[1] Roberts, R. J. et al. The advantages of SMRT sequencing. Genome Biol. 2013

[2] Berlin , K. et al. Assembling Large Genomes with Single-Molecule Sequencing and Locality Sensitive Hashing. BioRxiv. 2014

[3] Baker, S. K. et al. The extent World War1 dysentery bacillus NCTC1: a genomic analysis. Lancet.2014

[4] Conlan, S. et al. Single-molecule sequencing to track plasmid diversity of hospital-asociated carbapenemase-producing Enterobacteriaceae. Transl Med. 2014

[5] Satou, K. et al. Complete Genome Sequences of Eight Helicobacter pylori Strains with Different Virulence Factor Genotypes and Methylation Profiles, Isolated from Patients with Diverse Gastrointestinal Diseases on Okinawa Island, Japan, Determined Using PacBio Single-Molecule Real-Time Technology. Genome A. 2015

[6] Ashton, P. M. et al. MinION nanopore sequencing identified the position and structure of a bacterial antibiotic resistance island. Nature Biotechnology. 2014

《Scientific Reports》武汉大学药学院携手武汉未来组揭秘PT修饰生物学功能

近期,武汉大学药学院王莲荣与陈实教授课题组与武汉未来组合作,在DNA磷硫酰化修饰(PT修饰)的生物学功能研究方面取得突破性进展,其研究成果发表在scientific reports上。

DNA磷硫酰化修饰即硫原子取代了DNA上磷酸骨架上非桥联的氧原子, 该修饰是他们前期与邓子新院士和Peter Dedon教授发现的DNA骨架上的新型修饰。早期研究发现,该种修饰在有dndABCDE基因簇的细菌中存在,而dndFGH基因簇则能保护细菌免受外源无PT修饰的质粒的迫害,然则并不是所有的细菌都同时有以上2种基因簇。基于此,他们认为PT修饰还具有除R-M系统之外的其它功能,王莲荣与陈实教授课题组采用RNA-Seq的方法对PT修饰的生物学意义进行研究。

研究将无PT修饰的菌株(dndBCDE缺失)与野生型菌株进行对比,发现无PT修饰的菌株中有89个显著高表达的基因及95个低表达基因。其中,高表达基因有些是SOS相关基因、噬菌体相关基因,综上,他们认为无PT修饰的菌株DNA遭到了破坏,进一步研究证实无PT修饰导致了DNA双链的断裂。

图1 XTG102(dndBCDE缺失)、XTG103(dndB-H缺失)、XTG104(dndF缺失)与野生型表达差异图。红色,上调;绿色,下调

参考文献

Rui Gan1* X W, 2*, Wei He1, Zhenhua Liu3, Shuangju Wu1, Chao Chen1, Si Chen1,Qianrong Xiang1, Zixin Deng1, Dequan Liang3, Shi Chen1 & Lianrong Wang1. DNA phosphorothioate modifications influence the global transcriptional response and protect DNA from double-stranded breaks [J]. SCIENTIFIC REPORTS,2014