未来组2019成果首秀!五谷“元老”庆丰年

路人甲:组学君组学君,今天和大家聊点啥?组学君:硕鼠硕鼠,无食我黍……路人甲:讲诗经?

组学君:错,今天我们聊“黍”!稻、黍、稷、麦、菽五谷中的黍!

路人甲:那不就是糜子,又叫黄米嘛!

组学君:对!民以食为天,从古诗歌中我们了解到在西周末年到春秋初期糜子就是关乎生计的重要作物,而其最早的栽培史可以追溯到距今七千到一万年前,五谷“元老”名副其实呀!

路人甲:

组学君:最近未来组参与合作的糜子基因组近完成图发表于Nature Communications,当然要细说一番啦!

路人甲:快进入正题吧!

多技术结合打造糜子基因组近完成图[1]

Chromosome conformation capture resolved near complete genome assembly of broomcorn millet (Nature Communications, IF: 12.353)

糜子(Panicum miliaceum L., 2n = 4 × = 36)作为一种古老的作物,具有生长周期短(~60–90d),耐盐碱的特性,尤其是极端抗旱,其耐旱能力甚至比蒸腾系数低于高粱、玉米、小麦的谷子还要强。这种对非生物胁迫的超强耐受性机制一直为研究者所好奇。近日,糜子高质量参考基因组终于问世,该研究由中国农业大学赖锦盛教授团队主导,相关研究文章发表在Nature Communications杂志,从分子角度挖掘了潜藏这一机能的秘密。武汉未来组为该研究提供PacBio测序及组装

技术方案 
 
实验材料:Longmi4种子播种14天后(25 °C,暗处理),采集叶片,液氮速冻,提取高质量基因组DNA。

测序方法: 

PacBio、Illumina、BioNano、Hi-C

组装策略:使用Falcon对~170×PacBio长读长数据进行基因组组装,用~116×Illumina短读长数据进行polish,结合~235×BioNano数据辅助构建scaffold,再利用~140.2×Hi-C数据进行模拟染色体构建。

研究结果 
01 糜子基因组组装分析

研究首先用K-mer分析预估了Longmi4基因组大小约为谷子的两倍,证实了其四倍体化事件,然后基于PacBio和Bionano数据组装出了约848.4Mb的基因组,组装指标Contig N50 达2.55Mb,scaffold N50 达到8.24 Mb,包含了18条super scaffolds,覆盖了~95.6%的基因组(见Table 1)。接着研究通过全基因组测序和RNA-seq数据分别对组装好的基因组进行比对以评估组装的质量,比对率达到了99.6%和91.5%,说明组装质量非常好;经BUSCO评估发现基因完整度高达98.0%,标明组装完整度和准确度都非常高!

最后,精益求精的研究者还将Hi-C数据纳入其中以将scaffolds锚定、排序,通过深度约140.2×的覆盖将444条scaffolds装出了19条超长scaffolds以进一步分析。研究发现Longmi4染色体内Hi-C互作矩阵中出现明显的反对角图案(Fig. 1a),反映出所谓的染色体Rabl构象(间期染色体长短臂平行折叠)。基因组比较分析揭示了糜子和谷子之间的2对1的共线关系(Fig. 1b)。与玉米基因组不同,糜子的染色体在基因组四倍化后并未发生明显的融合现象,但染色体内的重排尤其是倒置现象在糜子基因组中广泛存在。例如在pm5和pm8两条染色体上,就有两个大小约为11.8 Mb和8.9 Mb的区域发生了倒置(Fig. 1b)。同时,研究者还发现pm3、pm10、pm14和pm15号染色体末端的一致性,它们之间是两对同源染色体,由此推测这对染色体末端之间的交换应是发生在糜子基因组四倍化之前。

Fig. 1 Hi-C技术辅助构建Longmi4模拟染色体

(a)200kb分辨率下的Hi-C互作热图

(b)糜子(pm1–pm18)和小米(si1–si9)基因组比较

02 基因注释和基因家族分析

通过结合~68.6 Gb的RNA-seq数据及一些近缘物种的蛋白序列,研究者在糜子基因组中预测出63,671个蛋白质编码基因,其基因数量几乎是谷子基因数量(34,584)的2倍。基因组比较分析发现,糜子和谷子共有19,609个基因,在这些基因中,有16,884(~86.2%)个基因在糜子基因组中都拥有两个同源拷贝,表明在发生全基因组复制事件(WGD)之后糜子基因组中丢失的基因较少(Fig.2 )。

Fig.2 以小米基因组为参考分析糜子基因组中的基因丢失与保留

通过对糜子基因组的深度挖掘,研究者揭示了糜子基因组中与抗生物胁迫和非生物胁迫的可能相关基因。共鉴定出493个含有NB-ARC结构域(可能与抗病性有关)的基因,其中20个基因(7个基因家族)在糜子中具有特有。与珍珠稷类似,糜子中的含NB-ARC结构域的基因具有一定的偏向性,主要集中在pm13和pm18染色体末端(Fig.3)。同时,糜子作为典型的耐旱植物,在其基因组中鉴定出了15 个ABA 或WDS应答基因。

更重要的是,与一般ABA基因的诱导表达不同,这15个ABA基因中有四个基因存在持续表达的表达谱,充分暗示了这些基因可能参与了糜子的极端非生物胁迫抗性。

Fig.3 NB-ARC结构域基因在糜子的18条

模拟染色体上的分布情况

03 Gypsy元件的近期大爆发

研究者发现在糜子基因组中~54.1%的序列为重复序列,其重复度在谷子和珍珠稷之间(二者基因组重复序列含量分别为~46.8%和~68.0%)。与其他谷物类似,LTR反转座子尤其是Gypsy超家族是糜子基因组中最主要的重复元件(Gypsy超家族占比~31.4%)。研究者对包括糜子在内的5种作物中的GypsyCopia家族的插入时间进行了分析,发现玉米和高粱中Gypsy元件在近期有一次爆发,其他三个物种的爆发时间较早,但都发生在距今~100万年以内(Fig.4a)。相比之下,糜子基因组中的Copia家族的爆发时间要早得多,大约发生在距今200万年前(Fig.4b)。

Fig.4 糜子 (P. miliaceum)、谷子 (S. italica)、珍珠稷 (P. glaucum)、高粱 (S. bicolor)、 玉米(Z. mays)基因组中的Gypsy (a) Copia (b)的插入时间分析

04 亚科大类进化分析

研究利用组装的高质量的糜子基因组、新发表的珍珠稷基因组和Dichanthelium oligosanthe基因组进行联合分析,构建了黍族系统发育树(Fig.5)。系统发育分析揭示了糜子的异源四倍体化发生在591万年之内,而糜子和谷子的分化大约发生在1310万年前。

Fig.5 黍族的系统发育分析

结 语

本研究所报道的高质量糜子基因组序列不仅对理解糜子基因组四倍体化后的动态进化具有重要意义,而且对今后的糜子分子育种也有一定的参考价值,并将促进黍属植物与其他作物的比较基因组研究。

同时,研究结合了三代长读长全基因组测序技术、二代短读长测序技术、Bionano光学图谱、Hi-C染色体构象捕获等技术优势,获得了高质量的糜子基因组,说明了多组学平台的结合对于复杂程度高的作物具有显著的优势。近年来,不断有高等植物通过该手段获得了良好的组装质量,如武汉未来组2018年参与的玉米基因组文章[2]借助PacBio辅以Illumina、Bionano技术登上了Nature Genetics,Bionano光学图谱已成为破解作物遗传密码的首选秘密武器。还有借助Hi-C技术登上Science的小麦[3]和其他作物如日本晴[4]、苦荞[5]等,可以说杂合、重复已不再是基因组难题,对于它们基因组的解析在分子育种、农业生产以及特性优化方面都有着不可估量的价值。

 

延伸阅读:

Nature Genetics | 三代测序揭示玉米种内存在广泛的基因结构变异

ONT + 光学图谱 = 染色体水平的植物基因组

Nanopore 和 BioNano DLS 双剑合璧实现染色体级别高粱基因组

未来组三代基因组项目再出新篇!“英雄树”木棉基因组草图首发

小麦基因组草图到精细图的利器:长读长测序+光学图谱

参考文献

[1] Junpeng Shi, Xuxu Ma, Jihong Zhang, et al. Chromosome conformation capture resolved near complete genome assembly of broomcorn millet[J]. Nature Communications, 2019.

[2] Sun, S. et al. Extensive intraspecific gene order and gene structural variations between Mo17 and other maize genomes. Nature Genetics (2018).

[3] Avni, R., Nave, M., Barad,et al.  (2017). Wild emmer genomearchitecture and diversity elucidate wheat evolution and domestication. Science, 357(6346), 93-97.

[4] Dong Q , Li N , Li X , et al. Genome-wide Hi-C analysis reveals extensive hierarchical chromatin interactions in rice[J]. The Plant Journal, 2018.

[5]Zhang L , Li X , Ma B , et al. The Tartary Buckwheat Genome Provides Insights into Rutin Biosynthesis and Abiotic Stress Tolerance[J]. 分子植物:英文版, 2017, 10(9):1224-1237

Cell| PacBio升级解析人类基因组结构变异

继登顶Nature后,近日,PacBio文章再度收录于顶级期刊Cell上!第三代测序技术的实力日渐凸显,这次又在哪个领域有所突破呢?原来,华盛顿大学医学院的Peter A. Audano等人瞄准了当前人类基因组注释中的缺陷,试图用长读长技术修复人们对SVs认知的误差,下面和组学君先睹为快吧!
 一句话搞定?
长读长测序技术助力人类SVs分类解析并促进短读长数据对其进行基因分型的算法研究,明确了SVs在人类基因组研究中的重要作用!
 一张图说明?

 一分钟看完? 

为了优化人类结构变异(SVs)信息,研究者对15个人类进行了长读长测序并且分析了SVs,最后找到了99604个插入、缺失和倒位,其中2238个(约合1.6Mb)为已揭示的人类基因组中所共有,另外还有13053个(约合6.9Mb)在大多数人类基因组中找得到,证实参考基因组中含次要等位基因或者错误。附加的440个基因组分型结果证实了特异染色质中最常见的SVs被解析出来。研究发现:人类染色体最末端的5Mb中所包含的SVs是其他位置的9倍之多,其中55%的可变数目串联重复序列都映射到该区域。研究者鉴定出影响编码和非编码调控位点的SVs,优化了注释和对功能变异的解析,为精细人类参考基因组图谱构建了框架并为捕获等位基因多样性提供了重要信息。

如果有时间慢慢读,请继续……

材料与数据

该研究使用PacBio长读长测序技术对11个人类基因组进行测序,然后添加了两个之前已由本研究测序过的葡萄胎(胎盘绒毛发生良性病变的胚胎)CHM1和CHM13。另外,还加入了由未来组参与的华夏一号HX1以及同样是16年发表的亚洲人AK1基因组数据(见表1)。

深度挖掘SVs
对每一个人类基因组样本使用SMRT-SV鉴定、组装出50bp或者和GRCh38关系更密切的插入、缺失以及倒位SVs,且排除不可靠的SVs calling结果,如具有密集串联重复或间隙结构的着丝粒周围区域。最后平均每一个样本中鉴定到22755个SVs,且将它们融合为一个99604个非冗余SVs数据集(见表1和图1A),并分为四大类别:共有的、主要的(≥50%但并非所有样本中存在)、多态的(多于一个但<50%样本中存在)以及特异的SVs。

图1A 使用非冗余策略融合每个样本的变异成一个数据集

和预期一致,非洲样本多态性最丰富,平均每一个非洲人样本贡献了11.1%的特异性SVs,而非非洲人样本平均是5.6%,可以推断加入非洲样本可以将SVs识别翻倍(见图1B)。

图1B 每个样本中每一个分类类别的变异数量

非冗余数据集起初增长急剧,但是随着样本增加,增速放缓,这也说明这15个人中共有的SVs比例较高。同样,共有SVs数据集一开始降低急剧,随着样本增加逐渐平缓,所有样本中共有的SVs是2238个,且携带每一个SV的样本比例也呈现类似模式,共有的SVs增加了100%。同时,研究鉴定出15291个主要的SVs,表明当前的人类参考基因组在这些位点上中也含有次要等位基因或者错误。相较于多态SVs,主要变异数量更多且倾向于在重复DNA(约占80%)中富集。当与GRCh38基因组进行缺失比较的时候,如分析样本中共有SVs比例更高则定义其为插入SVs(见图1C)。

图1C 插入(INS)、缺失(DEL)和倒位(INV)三种变异在各类别中发现的频率

有意思的是,研究还和Illumina测序的人类基因组数据SVs识别结果进行了比较,发现本研究使用长读长测序技术挖掘出了87.3%的SVs在之前的二代测序数据中没有找到,尤其是插入SVs,有93.5%是之前不曾鉴别到的,其次是缺失SVs,新发现的比率也很高。这再一次证明:第三代长读长测序技术较之第二代短读长测序技术能够鉴定到更多的SVs。当然研究还将结果和人类基因组结构变异联盟做了比较,因篇幅限制就不详述了。

附加人类基因组的基因分型
为更好的理解SVs的群体分布,研究者优化了基因分型工具SV genotyper并应用于使用Illumina数据构建的440个人类基因组上(图1D)。结果显示,在至少95%的样本中,55.1%的SVs成功地进行了基因分型,92.6%的SVs成功地进行了一半或更多的基因分型。在那些能够成功进行基因分型的基因中,我们观察到至少一个附加人类基因组中有97.2%的SVs。这表明绝大多数SVs代表真正的人类多态性,而不是个体变异或体细胞伪影。

图1D 440个人类基因组样本中可分型的SVs其不同类别的出现频率

与预期的一样,在共有的和主要的SVs中分别找到了95.4%和66.7%的次要等位基因。在本研究中发现的507例(0.74%)共有和主要SVs中,研究者只观察到替代等位基因,却未观察到任何人类参考基因组序列。对于这些基因位点,人类参考基因组要么代表一个极端次要的等位基因(<0.2%),要么就是错误。

SV密度和染色体分布

SVs在基因组中是非随机分布的,研究者观察到在重复片段富集的染色体臂末端5Mb区域内,SVs呈现明显的偏倚(见图1E),并且推断亚端粒区域,SVs的密度是其他区域的9倍!共有SVs偏倚要小一些,但仍有3倍的密度差。

图1E  将SV划分为500Kb的bins并在不同染色体臂距离上进行聚类

当研究者在人类染色体中发现这一现象时,这些SVs却不是均匀分布,尤其是染色体长臂端更倾向于出现SVs亚端粒聚集,不过5号、19号以及X染色体是例外。研究者为了深入分析SVs偏倚这一现象,对其重复类型分类检验其亚端粒上的富集情况。他们观测到:SVs在VNTR上的富集密度是其他区域的4.8倍,其次是STRs(短串联重复区域),为2.9倍(见图2A)。

图2A SVs在STR和VNTR位点上的分布密度

虽然不同染色体富集情况不一,但是相较于短臂,人类染色体长臂上SVs普遍呈现出更宽区域的VNTR富集(图2B)。

图2B VNTR在不同的染色体臂距离上的聚集比率

另外,研究者还观察到双链断裂和VNTR密度之间的显著相关性,强烈的暗示了容易出现双链断裂的区域和VNTR形成之间的关系(图2C)。

图2C STR和VNTR数和双链断裂数相关性

基因的和潜在的调控SVs

接着,研究者又将共有的和主要的SVs和RefSeq注释结果交叉分析,解析了86个影响编码序列的事件、47个UTRs(非翻译区)事件、7417个内含子或任何基因2Kb空白区域中的事件。另外,还特意鉴定了1033个影响推断的非编码调控序列事件,本研究中定义为注释了的DNase I hypersensitive、H3K27Ac、H3K4Me1以及H3K4Me3位点的联合(见表2)。

这些事件中的许多嵌入了GCRICH或低复杂度DNA的区域,并可能影响基因结构。以图3A为例,在UBEQ2L1的5’端,研究者鉴定了一个1.6 kb的插入,主要由94 bp 富含GC的序列附近的二核苷酸和三核苷酸CACA重复单元组成。插入的断点精确地map到5’ UTR的第一个碱基,很可能扩展了UBEQ2L1启动子的长度。富含AT的序列照样可以被解析,例如458 bp重复元件在载脂蛋白APOOL 3’UTR内map上(见图3B)。

图3 缺失的基因或调控序列(部分)

优化mapping和SVs挖掘
基因组注释的优化以及对人类单倍型结构差异的理解深度对SVs的发现、解析具有重要的影响。在30个Illumina WGS样本中,研究发现如果将SV contigs添加到人类参考基因组及其替代contigs上,可以找到之前2.62% unmapped的reads,且有1.24% map到这些contigs上的reads提高了mapping质量。甚至,这些新map到的reads促使了插入SVs间SNVs和插入缺失的发现。例如,研究者使用GATK HaplotypeCaller鉴定到21969个特异变异,含68656个替代等位基因。通过短读长测序技术或者简单的线性参考基因组无法确定这些SVs,当缺失的序列映射到了编码序列时,这之间的差异直接影响对SVs的解析。举例说明,研究者鉴定到了FOXO6 exon 2上200bp的插入,而这200bp的片段与海马记忆加强和树突状脊柱密度紧密相关(见图4C)。恰恰这一片段在RefSeq以及Ensembl基因注释上都是缺失的,第二个(及最后一个)外显子在该插入的位点被分离了:RefSeq将外显子结合到一个0bp的内含子以及1391bp片段的第三位外显子上,而Ensembl则将它们接合到一个1bp的内含子以及477bp片段的第三位外显子上。本研究分析发现包含这200bp片段的序列形成了一个连续的编码外显子,加了67个氨基酸到ORF(开放性阅读框)上,相较于RefSeq注释,改变了基因终止密码子的位点。基因组突变频率数据库(gnomAD)报道了FOXO6上发现的7个功能缺失(LoF)的SVs,本研究通过纠正FOXO6阅读框,将两个推断的LoF变异正名为同义SNVs,还有一个更正为3’UTR中的SVs(见图4D)。

图4 纠正FOXO6阅读框

除了上述分析内容,本研究还分析了共有的和主要的等位基因SVs的特性、偏向性的GC组成并对人类参考基因组进行了补洞,对SVs进行了表达分析等,感兴趣的话可以阅读原文一探究竟。

总之,文章有如下几大亮点:

1. 测序注释了99604个常见的人类结构变异;

2. 发现了55%的可变数目串联重复序列(variable number of tandem repeats, VNTRS)映射到染色体末端,经分析其与双链断裂有着密切关联

3. 发现长读长测序技术能够鉴定到更多的SVs,尤其对于编码序列,SVs识别更加准确

4. 完善了参考基因组并为人类泛基因组研究丰富了多样性

原文内容博大精深,详情请点击原文链接

https://www.cell.com/cell/fulltext/S0092-8674(18)31633-7

相关阅读:

https://www.grandomics.com/research/h_x_w_r_sv/

SVs识别哪家强?PromethION为您揭晓

一滴蚊子血克隆出恐龙太扯?嗯,克隆出这只蚊子没毛病!

经典好莱坞大片《侏罗纪公园》相信小伙伴们还记忆犹新,斯皮尔伯格拿一只唯一不会吸血的还是只公蚊子当道具实在是功课没做好——不过也有技术宅质疑,如此微量的血液真的足够克隆出一个庞然大物?那么问题来了,基因组测序到底需要多少样本量?科学怪蜀黍要克隆出来自侏罗纪的蚊子,一只不够吧?
PacBio告诉你——完成全基因组测序,一只蚊子的DNA够够的了!

近期 Wellcome Sanger 研究所和 PacBio 公司的科学家公布了一种新的利用低起始量样本DNA进行全基因组测序的protocol,仅输入100ng DNA即获得了高质量的科氏按蚊基因组de novo组装效果。下面让我们通过预印版文章抢先来看看这一protocol到底特别在哪里吧!

材料:一只雌性按蚊(Anopheles coluzzii

HMW DNA提取:

在200μl PBS中捣碎虫体,使用Qiagen MagAttract HMW kit (PN-67653)试剂盒提取基因组DNA,并作如下调整:将Buffer ATL替换为200ul 1X PBS;在组织匀浆和孵育之前将PBS与RNAse A、蛋白酶K、Buffer AL混合;孵育时间缩短至2h;轻击管壁混匀;清洗1min;提取过程中转移DNA均使用宽口tips;

这些调整与10×genomics基因组提取方法一致,目的在于获取>50Kb的基因组DNA分子。结果显示,通过此法获得的gDNA总量约为250ng,且DNA长度主要分布在~150Kb左右。但经过低温运输过程之后,部分gDNA发生降解(Fig.1);使用Qubit fluorometer检测DNA浓度,随后使用其中的100ng DNA进行文库构建。

文库构建:

1 使用SMRTbell Express Prep kit v2.0构建SMRTbell文库(由于大部分基因组DNA已经片段 化至20Kb以上,因此省略gDNA剪切步骤)
2 对100ng DNA进行第一次酶促反应,除去单链突出端
3 随后用对DNA链进行损伤修复;
4 双链DNA末端加A;
5 于20°C条件下连接含T末端的SMRTbell接头(此过程耗时60min);
6 使用AMPure PB bead 进行SMRTbell文库纯化:
①首先使用0.45X AMPure②随后使用0.80X AMPure;
③最后使用FEMTO Pulse及Qubit Fluorometer对最终的文库进行浓度及大小检测(Fig.1)。

Fig.1 Anopheles coluzzii gDNA及最终文库

SMRT测序:

测序引物版本v4.0;聚合酶v3.0;使用Sequel系统测序,测序试剂版本v3.0,运行时间1200min;软件版本v6.0;共测序3 个SMRT Cells。

数据产出平均25 Gb /SMRT Cell (20 h movies)

组装指标:使用FALCON-Unzip软件进行de novo组装,contig N50 3.5 Mb,基因完整度大于98%

 操作要点: 
  • 基因组提取过程轻柔操作,保留大片段高质量DNA;
  • 建库过程不经历DNA剪切及片段筛选过程,避免剪切、纯化等步骤对DNA带来的损失,尽可能的保留DNA。

怎么样?这么省样品的建库测序方法你get了吗?据悉,这一新的官方protocol将于2019年2月正式发布,届时,PacBio必将在一些典型的涉及低DNA起始量的领域大展拳脚,如小生物膜的宏基因组分析、穿刺样本中分离的DNA样本、及需要有限扩增的靶向测序和单细胞测序等应用。

武汉未来组早在2016年就已经成功搭建基于PacBio的三代测序平台,并于2017年9月成功搭建Nanopore测序平台,一直致力于第三代测序技术的应用和推广,应用三代测序的合作研究成果多次登上Nature Genetics、Molecular Plant及Nature Communications等国际知名期刊。三代测序首选的合作者是谁?当然是未来组啦!

参考文献:

Kingan, Sarah, et al. “A High-Quality De Novo Genome Assembly from a Single Mosquito using PacBio Sequencing.” bioRxiv (2018): 499954.

Science首秀!看Nanopore如何杠上拉沙热病毒

过去三年,

有一种病毒疯狂肆虐

几内亚(科纳克里)、利比里亚、

塞拉利昂和尼日利亚部分地区!

2018年,

更是一发不可收拾!

截止2018年3月,仅尼日利亚

疑似病例就达1495例!

不排除其它西非国家存在的可能…

拉沙热听过?

一种主要通过动物传染的病毒性出血热疾病,

一旦感染,人畜共患!

Fig.1 2018年1月1日-3月18日拉沙热确诊病例分布图。(A) 受影响国家;(B)测序样本来源(橙色标记)

拉沙热病毒(LASV)是一种RNA病毒,且基因组高度可变,L区段(基因组大片段,编码RNA聚合酶和锌结合蛋白)和S区段(基因组小片段,编码糖蛋白和核蛋白)的种间核苷酸变异高达32%和25%,很难用短读长扩增子测序的方法准确检出。

怎么办?不忍看到水深火热中的西非人民继续遭罪,英格兰公共卫生署的Liana Eleni Kafetzopoulou及其同事们想到了纳米孔测序技术。对了,就是一种比U盘大不了多少的MinION纳米孔测序仪,通过对36个基因组及120份临床样本进行实时宏基因组测序分析,帮助他们揭示了LASV的多样化及其与早期发现的毒株的系统发育相关性,研究成果于2019年1月4日登上Science杂志——学者仁心,大大的赞!

Fig.2 样本测序时间轴

研究者调取了120份LASV-阳性临床样本,7周内搞定测序(Fig.2)。为了弄明白产生病毒间的亲缘关系,研究者将basecall reads和原始信号数据映射到参考序列上,使用Nanopolish进行突变体检测。对于非人源序列,研究者用canu进行了de novo组装,平均每个样本中包含LASV序列4.26%—42.9%,组装出了可以对91个样本中至少一个直系同源片段进行系统发育构建的矩阵。

研究者还留了个心眼,用Illumina测序对14个SISPA文库测序进行验证,发现Nanopore与Illumina序列高度一致,所以三代测序就是这么牛,靠谱,还走哪带到哪(Table 1)。

研究采用Centrifuge软件对110号样本进行宏基因组分类,鉴定出其中0.10%的reads源自甲型肝炎病毒,20×的测序深度达到了74%的基因组覆盖率。在同一个样本中,LASV reads占到了0.83%,达到了96%的基因组覆盖率。说明啥?嗯,哪怕多个长得很像的RNA排排站,Nanopore都能火眼金睛,一眼看穿——那些作为混合感染存在的病毒也无一例外!

那么,2018年尼日利亚拉沙热爆发的分子流行机制又是怎么回事?

别急,研究者使用生成的LASV序列及一些已有序列构建了拉沙热病毒系统发育树,真正的寻根溯源!基于S区段的最大似然法构树显示:2018年的LASV毒株都归属于尼日利亚LASV变种,尤其是Ⅱ型和Ⅲ型(Fig.2)。这个结果与基于L区段构建的系统发育树仅有7个毒株不一致。最后,真相大白:啮齿动物宿主污染是2018年拉萨热爆发的主要原因。所以奉劝小伙伴,没事零食别到处乱扔……

所以说,纳米孔测序技术在宏基因组学研究及疾病传播研究中的价值不容小觑,再加上实时测序、快速分析等其他技术无可比拟的优势,真的可以造福人类。这个研究缓解了人们对拉沙热在人际间广泛传播的恐惧,使公共卫生资源得到了合理分配,还指出LASV防治重点是加强社区鼠类控制、环境卫生和食品储存安全。

参考文献

Kafetzopoulou, L. E., Pullan, S. T., Lemey, P., Suchard, M. A., Ehichioya, D. U., Pahlmann, M., … Wozniak, D. M. (2019). Metagenomic sequencing at the epicenter of the Nigeria 2018 Lassa fever outbreak. Science, 363(6422), 74–77. doi:10.1126/science.aau9343 

辞旧迎新贺岁篇|走出非洲,人类基因组丢了10%?

人类基因组约3Gb,也就是30亿个碱基,如果将所有碱基排印成书,那么厚度将超过100米[1]。自从1977年测序技术诞生以来,人们已经推开了生命的奥秘之门,如今,又将好奇的目光投向人类自身。地球46亿年的漫长岁月,已有35亿年的生命史,而人的出现才几百万年。怎样定义人?人类是从地球孕育而来吗?人可以永生吗?人的终极演化形态是怎样的?也许有一天,这一切都可以从人类基因组中找到答案。

许多年以后,面对曾经科幻片[2]里才有的万能医疗舱,人类一定会想起他们第一次宣布HGP启动的1986年。

生命之书卷帙浩繁

——测序技术敲开人类基因组大门

1990年,在经过长达四年的争论和筹划后,人类基因组计划(HGP)终于获批启动,计划15年内完成绘制分析,投入资金30亿美元。

2000年,国际人类基因组测序联盟与Celera公司联合发布了基于全基因组鸟枪发测序的人类基因组草图,在2001年成果分别见刊Nature和Science杂志[3-4],发现人类基因数目仅3-3.5万个左右。值得一提的是,中国作为六个参与国家中唯一的发展中国家,测定3116Mb的序列,即完成了人类基因组的1%,精度达到了99.99%[5]。问题是,常染色质序列覆盖度只有90%,且序列之间存在近15万个空缺,导致了早期建立的很多基因模型是错误的。

2003年,中、美、英、德、日、法六国宣布比预期提前了两年完成了人类基因组序列图并于2004年发表在Nature上,进一步压缩人类编码蛋白的基因到2-2.5万个,精度达99.999%[6]。相较于2001年,常染色质的空缺只有341个,在这前后,研究者们也陆续将性染色体注解出来。

2005年,我国参与度达10%的人类单体型图谱问世[7]。

2006年,基因含量最多、解码难度最大的1号染色体登上Nature[8],标志着HGP的传奇乐章画上了休止符。

探索奥秘从未止步

——第二代测序掀起测序行业革命

2007年全球第一个白种人基因组图谱的公布标志着个体基因组时代的来临[9]。很快,深圳华大基因研究院就骄傲的宣布:第一个亚洲人基因组图谱“炎黄一号”发表于Nature[11],覆盖了36×的深度,拿到了一千一百七十七亿碱基对,比对了NCBI人类相关基因组,短reads序列达到99.97%覆盖率,而且根据参考的基因组,研究人员利用唯一的mapped reads获得了一个92%亚洲个体基因组的高质量序列集合。同时研究人员从中识别出了大约300万个SNPs,其中13.6%在dbSNP数据库中没有出现过,基因型分析证明这些SNP具有高精确性和一致性。研究人员还将这些序列与另外两个个体基因组(J. D. Watson and J. C. Venter)进行了比较,证明了第二代测序技术在个人基因组方面的应用潜力[12]。得益于第二代测序技术的高通量,整个项目不过一年时间,耗资1000万人民币!这项里程碑式的成果对中国以至整个亚洲人的治病基因、疾病预测等研究都有着非同寻常的意义。接着,第一张女性个人基因组图谱、第一张非洲人基因组图谱也相继出炉。但是第二代测序技术读长比重复元件要短,而人类基因组中已知的重复序列和片段化的重复元件占了近一半,这就导致在拼接的时候难免遗漏很多重要的信息。

 2008年炎黄一号首张中国人基因组 图谱登 《Nature》封面

技术革新再创辉煌

——第三代测序助力人类精细图谱问世

第三代测序技术以单分子测序且读长超长著称,因无需PCR,所以几无测序偏好性,由于荧光基团并不是附着于碱基而是磷酸键之上,大大降低了测序过程中的三维阻力,再加上ZMW孔锁定荧光检测区域,使读长远超二代测序。

通过PacBio SMRT,未来组助力暨南大学粤港澳中枢神经再生研究院主导的亚洲人参考基因组“华夏一号”收录于Nature Communications[10]。

“华夏一号”基因组组装策略结合了PacBio SMRT单分子实时测序技术和BioNano光学图谱分析技术,从头组装得到2.93G基因组,Contig N50为8.3Mb,Scaffold N50为22Mb得到一个中国人个体的基因组接近完成图。

图2 相较已发布人类参考基因组,“华夏一号”的Contig N50有将近10倍的提高

研究者还发现PacBio数据可以轻松跨越从5’末端到3’-Poly A tail的完整转录本,从而准确鉴定异构体,并对可变剪接、融合基因、等位基因表达等进行精确分析。在对Illumina和PacBio的测序数据的覆盖率比较后发现PacBio数据不受GC含量高低的影响,所以可以覆盖到多Illumina数据覆盖不到的区域,所以在基因组组装上优势就很明显。

图3 a.PacBio数据对GC含量异常区域覆盖更均匀,b.PacBio覆盖到Illumina覆盖不到的区域

“华夏一号”的发布填补了中国人群的疾病研究缺少精细参考基因组的不足,并将推进临床和科研大数据应用的重要基础性工作,大力推动中国的遗传疾病研究与诊断的发展。

第三代测序技术不仅有PacBio,更有人类历史上首次实现的纳米级别、也是唯一一种通过电信号的波动进行测序的技术Oxford Nanopore Technology(ONT),如2018年Nature Biotechnology上就发布了使用ONT首次高精度解析人类Y染色体着丝粒的研究[13]。

开拓视野解码升级

——非裔泛基因组补充10%人类DNA

最新的GRCh38基因组只有875个gaps[14],虽则如此,研究者们的目光多是聚焦在单个人身上,这样无疑滞碍了混血群体的研究,例如非裔人群。

近期,有约翰斯·霍普金斯大学的研究者使用全基因组鸟枪法测序法深度测序了910个非洲人种,构建了人类参考基因组中缺失但却在这910个非洲人中共有的DNA序列集,并鉴定出非洲人泛基因组在参考基因组中缺失的区域,最后发现了125715个特异contigs相当于比人类参考基因组多出超过约10%的DNA。研究者揭示出其中387个contigs来自315个特异的蛋白编码基因,余者来自基因间区域。这一研究成果发布在Nature genetics[15]上。

在这份研究中,研究人员收集了来自910个非洲人后裔群体的基因组,横跨全球20个地区包含美国、中非和加勒比等地的CAAPA(美洲非裔群体哮症协会)成员,使用Fig.1图示步骤去除了污染及冗余的contigs,最后鉴定到了GRCh38基因组中缺失的296.5Mb共125715条新序列,并且研究者将其中1548条序列(4.4Mb)锚定到了GRCh38基因组上的特异位点上,平均每个个体包含了859条插入序列,其中有一条序列同时可以在六个个体中找到。1548条序列中的302条完整定位到了基因组中的位置并解决了剩下1246条序列插入末端的断点。最长的定位到的序列为79938bp,存在于在197个样本中,而最长的未定位到的序列为152806bp,存在于11个样本。所有定位到参考基因组上的序列中的387条与已知基因相交,48个特异基因在外显子上,另外267个基因属于内含子区域;其中315个基因含插入序列,其中292个被命名(非“假设”或无意义的鉴定)。研究组装出的contigs中的31354079个碱基可以比对到GRCh38基因组上(一致性≥80%),组装成单个基因组后可以匹配上60202871个碱基(一致性≥80%)。

另外,研究还将该研究中的125715个泛基因组contigs比对到未来组参与完成的华夏一号(HX1)基因组和韩国人基因组(KOREF1.0)上,发现有42207个contigs共120.7Mb可以比对到韩国人或华夏一号基因组上且一致性≥90%,覆盖度≥80%,优于对GRCh38的匹配度,其中一个区段的示例见表1和图4,这个发现表明生成GRCh38基因组的个体缺失了一部分序列。

表1 非裔泛基因组contigs和华夏一号及韩国人基因组的比较

图4 将非裔泛基因组和华夏一号、GRCh38基因比对

Shi et al等人于2016年组装的华夏一号基因组报道了12.8Mb的新DNA,研究者则发现华夏一号和该研究中生成的特异序列共享68.1Mb的DNA。总之,该研究发现,亚洲人泛基因组产生的序列中有296.5Mb相当于10%的基因组大小在标准人类参考基因组中是缺失的,这其中有120.7Mb可以在韩国人或者华夏一号基因组中找得到,间接表明这些DNA代表的基因区域在GRCh38基因组所代表的群体中于更近的时期丢失了或者十分罕见,也可以说明单个参考基因组不适宜基于群体的人类遗传学研究,将来或许会有更好的方法获取综合性的人类泛基因组,捕获所有人类中的DNA。

随着“中国十万人基因组计划”、“地球生物基因组计划”的相继问世,人类仍在组学研究的大潮中寻找属于自己的那朵浪花,现有的成果距离揭示人类的奥秘还有很长的路要走。武汉未来组有幸也成为了一名弄潮儿,由未来组发起的“个人参考基因组服务计划”、“华夏万人结构变异计划”正在如火如荼的进行,并且进展顺利。人的智慧无穷尽,探索的脚步永不停,总有一天,人们只需要带着自己的基因图谱去看医生,扫描一下数据就可以直达病灶,然后躺进万能的医疗舱,出来的时候百病全消……

辞旧岁,迎新年,在这里,组学君默默祝祷,期望每一个善良的人都平安喜乐,百病不生。在新的一年,未来组将创造更多的成绩回馈社会,回馈组学领域,也祝愿每一位科研工作者硕果累累,万事如意!

已发表精细人类基因组图谱[10,16]

2018年NCBI上收录的人类基因组组装版本[17]

参考文献

[1]http://jiyongqing.blogchina.com/2427017.html

[2]《第五元素》、《极乐空间》、《普罗米修斯》等好莱坞科幻影片中均出现过能够复原生命或者治疗人类疾病的医疗舱。

[3]International Human Genome Sequencing Consortium. Initial sequencing and analysis of the human genome. Nature 409, 860–921 (2001).

[4]Venter, J. C. et al. Te sequence of the human genome. Science 291,1304–1351 (2001).

[5]骆建新, 郑崛村, 马用信, et al. 人类基因组计划与后基因组时代[J]. 中国生物工程杂志, 2003, 23(11):87-94.

[6]Finishing the euchromatic sequence of the human genome[J]. Nature:931-945.

[7]A haplotype map of the human genome : Article : Nature[J]. Nature, 2005.

[8]Gregory S G , Barlow K F , Mclay K E , et al. Corrigendum: The DNA sequence and biological annotation of human chromosome1[J]. Nature, 2006, 441(7091):315-321.

[9]高媛. 后基因组时代的生物信息学发展[J]. 中国科技信息, 2009(10):225-226.

[10]L. Shi, et al., Long-read sequencing and de novo assembly of a Chinese genome. Nature Communications (2016)

[11]The diploid genome sequence of an Asian individual[J]. Nature.

[12]https://m.antpedia.com/news/49844.html

[13]Jain M, Olsen H E, Turner D J, et al. Linear assembly of a human centromere on the Y chromosome[J]. Nature biotechnology, 2018.

[14]Schneider, V. A. et al. Evaluation of GRCh38 and de novo haploid genome assemblies demonstrates the enduring quality of the reference assembly. Genome Res. 27, 849–864 (2017)

[15]Sherman, R. M. at al. Assembly of a pan-genome from deep sequencing of 910 humans of African descent. Nature Genetics.51, pages30–35 (2019)

[16]De novo assembly and phasing of a Korean human genome. Nature 538,243–247 (13 October 2016) doi:10.1038/nature20098

[17]https://www.ncbi.nlm.nih.gov/assembly/organism/9606/latest/

【年末精选】当转录组遇上三代测序

每一项科学研究都是为了解决科学问题,那么当转录组研究遇上三代长读长测序技术,又能讲述怎样有趣的科学故事呢?

蜂鸟如何实现高效的能量转换?
15 February 2018, GigaScience

蜂鸟是唯一一类需要通过持续飞行获取花蜜的鸟类,其中的红喉蜂鸟,其在飞行中的高效率能量代谢几乎可与脊椎动物相匹敌。蜂鸟利用摄取的花蜜来为飞行提供能量,在这个过程中,蜂鸟体内流动的糖分是不飞行的哺乳动物体内的55倍。但糖类并不是唯一的能量来源,在长时间的飞行过程中,蜂鸟会选择消耗储存的脂肪来为飞行加油。正如蜂鸟体内的糖代谢非常快一样,在需要的时候,从膳食糖中建立脂肪储备也是非常迅速的。

研究者经PacBio SMRT测序技术对蜂鸟独特的代谢机制进行研究,仅针对蜂鸟特定组织肝脏,进行高覆盖度测序分析,结合最新生信分析方法,通过比较转录组手段,确定了蜂鸟脂肪合成通路中的序列差异和进化情况,解析蜂鸟独特代谢机制。

研究者利用OrthoMCL对红喉蜂鸟119,292个高质量序列和5种鸟类(安氏蜂鸟、烟囱刺尾雨燕、原鸡、斑胸草雀、虎皮鹦鹉)、人以及密西西比鳄进行同源分析。并对与安氏蜂鸟和红喉蜂鸟共有的同源序列进行GO注释。在红喉蜂鸟中确定的与代谢相关的1,444个直系同源序列,有236个(16.3%)是蜂鸟特有的,其中大多数基因都与初级代谢过程相关,在红喉蜂鸟初级代谢中占比最高且特有的是脂代谢过程。

对红喉蜂鸟、安氏蜂鸟、原鸡、烟囱刺尾雨燕、人、密西西比鳄中参与肝脏脂肪合成通路中的8种关键酶的氨基酸进行比较分析,发现蜂鸟通路中关键酶相关序列差异性较高,表明蜂鸟肝脏脂肪合成途径发生了功能适应性进化。研究者在文章中指出,经PacBio测序获得的全长转录本数据,不需要比对,不需要组装,直接获得基因isoforms转录组图谱,如本研究中确定的最长序列是脂肪通路中的acetyl-coA carboxylase 1,分析数据读长超过了7Kb,能覆盖编码区域,同时,Iso-Seq获得的转录组数据结合其他技术,可进一步用于后续代谢等相关研究。

空心莲子草叶甲为什么会专性采食

02 February 2018, Scientific Reports

空心莲子草是原产于南美的苋科植物,在二十世纪30年代进入中国并迅速成为入侵物种,对当地的生态系统造成了严重破坏。空心莲子草叶甲是空心莲子草的专性天敌,作为生物防治手段而被引入。这种叶甲不仅对空心莲子草有很高的专一性,其环境适应性也较强。

来自山西农业大学的研究者应用PacBio Iso-Seq技术,首次完成对叶甲的四个生长阶段(卵、幼虫、蛹、成虫)的转录组测序,并基于PacBio SMRT数据,做了进一步的全长转录组标准分析,重构了28,982 条转录本,鉴定了145个可变剪接事件;27,318条简单重复序列;经TransDecoder鉴定获得24,040个ORF,其中有16,205个完整的ORF;预测得到4,198 个lncRNA。同时,研究者还用多个数据库对空心莲子草叶甲基因进行了注释。长读长测序数据保证了转录本鉴定及基因注释的准确性。

这项对于叶甲的全长转录组研究,获得了较完整的叶甲转录本集合,并对转录组进行了较完整的鉴定和注释。尽管这篇文章并未明确定位与叶甲专性采食及其环境适应能力相关的基因,但也为进一步揭开谜底奠定了分子基础,同时也为其他昆虫和生态系统之间的互作研究提供了新的思路。

卡本内苏维浓凭什么在红酒界称王?

22 February 2018,bioRxiv

卡本内苏维浓又名赤霞珠,是最为人熟知、原生于法国的酿酒葡萄品种,在世界范围内广泛分布,其果粒小、果皮厚、出汁量少,含有极高浓度的酚类物质和单宁,使得酿造出的卡本内苏维浓葡萄酒拥有最深邃神秘的酒色和口感。

美国加州戴维斯大学葡萄栽培与环境学系的研究人员基于PacBio Sequel平台的全长cDNA测序提供了葡萄浆果成熟期间的综合性的全长转录本信息,同时结合二代测序数据,完善了Cabernet Sauvignon的基因注释,同时指出Cabernet Sauvignon成熟期的基因表达有异于其他葡萄,这或许正是她独特的魅力的成因。

为了研究Cabernet Sauvignon葡萄有别于其他栽培品种的独特基因,研究者将Cabernet Sauvignon葡萄中的55,886个已注释的转录本与PN40024的CDS区、Corvina葡萄和Tannat葡萄的转录本进行比较分析。研究发现Cabernet Sauvignon葡萄中的独特Isoforms有585个,对应于549个基因,这些基因参与了葡萄生长和浆果成熟的各种细胞过程和代谢过程。

通过GO富集分析发现Cabernet Sauvignon葡萄中有两个生物学过程较为显著——“细胞氨代谢过程”和“氧化还原过程”。在“细胞氨代谢过程”中的两个苯丙氨酸解氨酶基因(PALs;P0148F.500780.A、P0148F.500740.A)在葡萄成熟期间均有表达,且在成熟后其表达上调。在“氧化还原过程”中研究者推测二氢黄酮-3-羟化酶(F3H;P0007F.293800.A)起代表性作用,在葡萄成熟前到成熟、成熟到成熟后的阶段中该酶的表达明显上调。PAL和F3H在类苯基丙烷和类黄酮的生物合成过程中发挥作用,该过程在葡萄浆果中生产多酚类物质。与此类似,其他Cabernet Sauvignon葡萄的一些特异性基因在浆果成熟期间发生差异表达(65个转录本),说明他们参与了葡萄成熟过程。研究者推测是这些基因造就了Cabernet Sauvignon葡萄的独特性质。

尽管这一年三代测序在转录组方面的研究硕果累累,但是篇幅有限,今天组学君就和大家侃到这里吧~

三代全长转录组测序技术为研究者提供了一个可以全面观察物种转录组动态变化的机会——无需拼接,直接获得转录本全长,可获得更多被二代短读长数据遗漏的novel 基因及isoforms,更真实地反映转录组全貌,这将为转录组学研究带来更多新的机遇。武汉未来组配备三代PacBio及Nanopore测序仪,平均下机读长15-20Kb,月均产出高达18-20Tb,拥有丰富的全长转录组研究项目经验。全长转录组研究,未来组是您的不二之选。

2018三代转录组文献汇总

参考文献:1. Workman R E , Myrka A M , Tseng E , et al. Single molecule, full-length transcript sequencing provides insight into the extreme metabolism of ruby-throated hummingbird Archilochus colubris[J]. GigaScience, 2018.2. Jia D, Wang Y, Liu Y, et al. SMRT sequencing of full-length transcriptome of flea beetle Agasicles hygrophila (Selman and Vogt)[J]. Scientific reports, 2018, 8(1): 2197.3. Minio A, Massonnet M, Vondras A, et al.Isoform-scale annotation and expression profiling of the Cabernet Sauvignon transcriptome using single-molecule sequencing of full-length cDNA[J]. bioRxiv,2018: 269530.

【2018年末精选】值得一看的三代基因组文章(动物篇)

动物基因组一直以来都是组学研究领域的热门,目前动物基因组大小数据库(Animal Genome Size Databse)中已经收录了超过6000种有记载的动物,小到如咖啡短体线虫只有0.02pg,约合19.56Mb,而该数据库记录的维多利亚肺鱼基因组达到了近130G,两者相差6600多倍[1]

 图1 已记录的生物基因组大小范围[1]

随着测序技术的飞速发展,近年来越来越丰富的动物基因组研究极大地推动了人们对于人类起源、物种演化、医学、病虫害防治及濒危动物的保护等方面的认知及研究。2018年,运用三代长读长测序技术完成的动物基因组研究也是成果丰硕,逾40个高质量动物基因组被解析。以下组学君精选几篇高分文章,和您一起探讨动物基因组的奥秘~

  蝾螈基因组[2] 

——低深度三代测序组装完成的超大型基因组,揭示蝾螈断肢再生的秘密

24 January 2018,Nature

1月24日,Nature在线发表美西钝口螈(Ambystoma mexicanum)(~32Gb)基因组组装结果,是迄今组装完成的最大的基因组。研究中利用了三代PacBio测序技术及Bionano光学图谱技术,同时开发了新算法MARVEL,实现了利用低深度三代测序数据(32× PacBio数据)完成对超大型动物基因组的组装。

美西钝口螈基因组中重复序列高达18.6Gb,其中LTR和LINE是最主要的类别,其中不少长度超过10kb,并且组装出的97%的contigs都以LTR元件结尾。通过重复元件的相对形成时间分析得知:美西钝口螈基因组经历了持续时间很长的转座子活跃期,随后发生了近期持续性爆发式的重复序列扩张,大规模的重复序列扩张让美西钝口螈拥有如此庞大的基因组。

HoxA基因在肢体的近远轴(proximal-to-distal)发育中发挥重要作用,并且在断肢再生过程中会被重新活化。本研究中美西钝口螈的HoxA基因位点在单个contig上,含有明显的重复区域,比人类和蛙类的该基因大3.5倍,可能是由于该基因簇中在HoxA3和HoxA4之间存在一段170kb的扩张。

蝾螈的断肢再生功能具有非常重要的临床研究意义,此次美西钝口螈基因组的完成,与以往的单纯转录组数据相比,为研究提供了更为完整的参考信息。

 人类基因组[3] 
——里程碑:首个Nanopore测序完成的人类基因组,即将开启人类基因组完成图时代

29 January 2018, Nature Biotechnology

1月29日,Nature Biotechnology在线发表基于Nanopore超长读长组装人类基因组的研究论文。研究结果显示:低覆盖深度测序(~30×普通nanopore reads+ ~5× ultra-long reads)即能将基因组Contig N50组装到6.4Mb,填补了参考基因组(GRCh38)中12个gap,是单一测序手段得到的迄今最连续的人类的基因组。研究人员通过Nanopore MinION测序平台获得的ultra-long reads,最长读长达到了882kb。基于最先进的测序方法分析人类基因组中先前难以攻克的复杂区域,例如评估人类染色体端粒长度;完整地组装出6号染色体上的MHC区域(位于单个contig上)等,这是MHC首次在二倍体人类基因组中被准确地定向。此次Nanopore测序组装人类基因组研究论文的发表,对新测序技术的推广应用和更连续的人类参考基因组在临床医学研究中的应用意义深远。 

  高等猿基因组[4] 
——三代基因组de novo组装,揭示人类与猿的基因组结构差异

08 June 2018, Science

尽管近年来人们在类人猿和人类基因组的测序组装中做了很多努力,但我们对结构差异的理解,特别是对人类谱系特异性的理解,还远远不够。在以往的研究中存在两个基本问题:一是在类人猿基因组中存在相当大的杂合性;二是高质量的人类基因组常常被用来指导非人类基因组的组装,包括序列的顺序和方向,甚至是基因的注释。这造成了其他非人类基因组的“人类化”,结果导致很难发现在这些物种之间的结构变异和转录本差异。

为了解决这个问题,美国华盛顿大学Eichler研究组使用PacBio SMRT长读长测序技术及光学图谱技术,同时结合全长转录组测序辅助基因注释,生成了新的人类和类人猿基因组并着重分析了这些基因组中的结构变异事件。研究结果表明,与人的进化距离越远,结构变异的数目越多。

该研究还进一步研究了人与黑猩猩脑器官差异表达相关基因,研究表明,与黑猩猩相比,人特异性结构变异基因中与放射状胶质神经组细胞相关的基因表达下调。

这项研究充分体现了长读长测序在基因组de novo组装及完善基因组注释中的作用,不依赖于参考基因组的测序组装最大程度地保留了物种的特异性基因组信息,为研究近缘物种的演化及结构变异提供了有效方法。

 考拉基因组[5] 

——揭示考拉独特的“解毒”机制

02 July 2018, nature genetics

考拉又称树袋熊,主要栖息地是澳大利亚东部的桉树林区。近年来,由于栖息地减少、疾病传播等原因,考拉面临着极大的生存挑战,澳大利亚采取了一系列措施保护这一珍稀物种。

澳大利亚博物馆研究所等机构的研究人员和英国、美国等国同行在Nature genetics杂志上发表关于考拉全基因组的研究论文,该研究运用三代PacBio测序技术和二代Illumina测序技术,获得了高质量的考拉基因组,发现了超过2.6万个基因,进一步分析揭示出与考拉饮食习惯、免疫系统等有关的基因调控机制。

研究人员发现考拉对桉树叶片的解毒能力可能是与细胞色素P 450基因家族的扩张有关,这种被称为“细胞色素P450”的酶在生物代谢过程中扮演重要角色。关于犁鼻器和味觉感受器的基因家族扩张也使得考拉能够在众多桉树中找到次级代谢产物较少的叶子以供食用。考拉容易受到衣原体感染,为了保护刚出生的幼崽,考拉的乳汁中含有一种特殊蛋白质,能对抗包括衣原体在内的一系列细菌和真菌。

这一研究成果极大的促进了考拉生理、遗传学研究的系统性和科学性,同时对遏制考拉野生种群数量持续走低也有着积极意义。

  牛基因组[6]

—— Trio Binning方法突破单倍型基因组组装难题

22 Oct 2018, Nature Biotechnology


美国国家人类基因组研究所、Pacific Biosciences公司及阿德莱德大学等单位的研究人员开发了一种新技术,通过简单的方法即可实现从二倍体中组装出完整的单倍体基因组,这项新技术是基因组组装领域的重大突破,使研究人员能够鉴别从植物到动物等任何类型基因组中的复杂性,并获得比目前更为精确的参考基因组。该研究成果发表在10月22日的Nature Biotechnology杂志上,一经发布便引起广泛关注。

复杂的等位基因变异阻碍了二倍体基因组中单倍型序列的组装,为此研究者开发了trio binning方法,通过在组装前解析等位基因变异来简化单倍型的组装。与以往的方法恰恰相反,该方法的有效性随着杂合度的增加而提高。Trio binning首先使用来自两个亲本基因组的高精度短读长数据将子代的长读长序列划分为单倍型特异性的集合,然后每个单倍型独立组装,形成一个完整的二倍体重建。这一新方法运用了读长更长的PacBio测序技术,首次给出了每条染色体的真正基因组序列,获得迄今为止最高质量的两个牛亚种基因组。将该方法应用到拟南芥和人类家系中,同样获得了理想的分型效果。

该论文的作者之一John L Williams教授说,trio binning技术已经彻底改变了他们以前的技术,他说:“到目前为止,基因组序列都是由遗传差异最小的个体构建的。Trio binning技术标志着技术能力的重大进步,对研究和医学应用具有广泛的意义。” 并指出Trio binning技术将有助于建立更准确的个人基因组变异信息,这将提高基因测试的准确性,并有助于获得个人独特DNA序列,从而在其临床治疗上提供帮助。

 伊蚊基因组[7] 

——高质量伊蚊基因组,带来蚊虫防治新思路

14 November 2018, Nature

埃及伊蚊是传播包括登革热、黄热病、寨卡病毒以及切昆贡亚热在内的可怕疾病的载体。由于缺乏高质量的参考基因组,在了解蚊子生物学特性及蚊子防治等方面依然困难重重。

由洛克菲勒大学领导的国际研究团队结合PacBio测序、Bionano光学图谱、Hi-C分析、10x Genomics linked-read测序以及Illumina的短读长测序多种手段大大升级了埃及伊蚊的参考基因组并进行了重新注释,通过锚定物理图谱和细胞遗传图谱,研究者在伊蚊基因组中鉴定出了两倍于已知的、引导蚊子以人类为目标、定点产卵的化学感应离子受体。

研究还发现了有助于深入了解雄性性别决定位点的大小和组成并揭示杀虫剂耐药性关联基因之间的拷贝数变异。使用高分辨率的定量性状位点和群体遗传分析,研究者定位到了新的与登革热传染能力和拟除虫菊酯抗性相关的候选基因。

长读长测序技术及光学图谱、染色体构象捕获等技术的应用为人们展示了更精细的物种基因组结构,使人们得以更进一步地探索生命的奥秘,了解物种独特的特性及功能背后的基因密码。武汉未来组专注三代测序技术的研发与应用多年,依托于自身的PacBio、Nanopore、Bionano光学图谱及MGISEQ等平台,已合作发表多篇三代测序基因组文章。选择未来组,我们将为您提供高质量、高效率的三代基因组测序分析服务。

2018已发表三代动物基因组(PacBio)

2018已发表三代动物基因组(Nanopore)

参考文献:

[1] http://www.genomesize.com/statistics.php?stats=entire#stats_top

[2] Sergej Nowoshilow, Siegfried Schloissnig, Ji-Feng Fei , et al. The axolotl genome and the evolution of key tissue formation regulators.Nature.2018

[3] Jain M, Koren S, Quick J, et al. Nanopore sequencing andassembly of a human genome with ultra-long reads[J]. bioRxiv, 2017: 128835.

[4] Kronenberg, Z.N. et al. High-resolution comparative analysis of great ape genomes. Science 360(2018).

[5] Johnson, R.N. et al. Adaptation and conservation insights from the koala genome. Nature Genetics 50, 1102-1111 (2018).

[6] Koren, S. et al. De novo assembly of haplotype-resolved genomes with trio binning. Nature Biotechnology (2018).

[7] Matthews B J, Dudchenko O, Kingan S B, et al. Improved reference genome of Aedes aegypti informs arbovirus vector control . [J].Nature,2018

non-B DNA影响链聚合速度和错误率?PacBio告诉你!

non-B DNA是什么?

说起non-B DNA,是不是会有点陌生?不要紧,组学君从DNA的分子构象说起。依据脱氧核糖核酸的序列、超螺旋的程度以及方向还有碱基上的化学修饰、溶液状态等,我们可以在自然界的生物细胞中发现三种DNA构象:A-DNA、B-DNA与Z-DNA。理论上的B构象是细胞中理想、均一的结构,而实际的B-DNA从微观角度看各个碱基对也是有所不同的,平均每个螺旋周含有10个nt;A-DNA每一转螺旋的碱基对更多,因此螺旋相对更短更紧密;Z-DNA则是左旋型态,因而能够与B-DNA结合,由DNA单链上的嘌呤和嘧啶交替排列形成。

non-B DNA形成的序列模体包含Z-DNA、G4链体(一种稳定的非标准DNA二级结构,由四个鸟嘌呤层叠排列组成,每个鸟嘌呤由Hoogsteen氢键连接[1])、A相重复序列、颠倒重复序列、镜像重复序列、正向重复序列及其相应的子集(见图1A)。

图1A Non-B DNA模体类型

non-B DNA——是造物主的馈赠,也是诅咒

何出此言呢?non-B DNA可以调控很多细胞中的生理进程,越来越多的研究证据也表明,其在很多与疾病相关的细胞通路中起到关键作用,例如G4结构已成为颇具吸引力的抗癌治疗靶点。但同时,它也会影响DNA合成并导致基因组不稳定,在癌症细胞的染色体重排中尤其常见,单个位点在体外或者活体转移的实验中显示:non-B DNA构象会抑制原核以及真核生物DNA的聚合酶,导致复制叉的停顿或者中止。千人基因组计划中的致病基因和遗传变异数据还证实non-B DNA构象中点突变的发生几率相对要高一些。

首次在基因组范围解析non-BDNA影响聚合速度和错误率的研究[2]

近日来自宾夕法尼亚州立大学的WilfriedGuiblet等人使用PacBio单分子实时测序技术(SMRT)来评估DNA聚合速度和聚合酶错误受non-B DNA的影响,并使用特殊设计的噬菌体phi29聚合酶来记录脉冲间隔持续时间(IPDs)以测定主要的核苷酸序列(见图1B),两个荧光脉冲之间的时间对应于两个连续的核苷酸的结合时间。他们还使用IPDs作为衡量聚合作用动力学的参数,借助SMRT测序技术在基因组尺度上对non-B DNA模体类型的聚合动力学和错误进行直接、实时的监测。研究还将高突变和非突变的non-B DNA模体进行对比来分析SMRT聚合动力学和测序错误率之间的关系来探索测序设备和活体细胞中聚合作用的潜在关联。近日,该项研究成果发表于《Genome Research》,让组学君和大家分享一下吧!

 研究概览

Non-B DNA模体影响聚合动力学

研究者选取了包含non-B DNA数据库和注释的STRs(短串联重复序列)共92个可能形成non-B DNA的不同模体类型(见图1A),并且构建了包含各类模体的基因组视窗,每个视窗自中心取样±50bp(多数小于100bp)且排除重叠视窗。在对照组中,研究人员还构建了100bp的无模体窗口作为基因组背景,即假定的B-DNA。研究使用之前使用SMRT测序的69×深度的人类基因组数据,用其中100个单核苷酸分辨率的IPD填充每个包含各类模体和无任何模体的窗口——因每一条链都作为SMRT测序中的模板单独使用,因此上述对参考链和互补链的操作都是独立的。对于每个模体类型,研究都进行了中心比对并聚合IPD曲线以生成每一条链的IPD曲线分布(见图1B)。

图1B SMRT测序时每一个subread记录了每一个核苷酸的IPDs

为了评估non-B模体是否呈现不同于B-DNA的聚合动力学模式,研究使用了Interval-Wise Testing(IWT)——一种新的功能数据分析(FDA)方法,并识别基因组碱基或IPD曲线分布在包含模体和无模体的100bp窗口之间显著不同的区间(图2)。而研究者在多个non-B-DNA模体中和/或周围发现了聚合动力学的改变。紧接着,研究者描述了对参考链的操作结果(总共包含2916328个含各种模体和2524489个无任何模体的窗口)(见图2A-D的上部分以及E)以及反向互补的结果作为生物学重复(见图2A-D的下部分)。

图2 non-B DNA 的聚合动力学

双线证据支持G4模体阻碍聚合酶进程的推断。首先,G4模体的存在降低了聚合速度。与无模体窗口相比,包含G4模体的窗口在其中心显示相当高的IPDs。更重要的是,包含了所有模体类型的IPD分布形状保持一致(见图2A)。其次,G4模体的测序深度低于无模体窗口(86%的无模体测序深度要高些)(见图2A),表明G4模体的存在会在一定程度上阻碍聚合,导致较少的reads覆盖。相反,富含胞嘧啶的互补链(图2A)以及参考链(其反向互补链上的G4s已被注释)(图2E)上的聚合显示速度加快,测序深度也略微有增加(92%无模体测序深度要高些)。同时,研究者也观察到其他的non-B DNA模体如A相重复序列、颠倒重复序列、镜像重复序列以及Z-DNA都显著地改变了聚合动力,使聚合变快(IPD更低)或者变慢(IPD更高)。但是和G4模体不一样,它们对两条测序链的聚合动力影响是相似的(见图2E)。

此外,研究还发现STR以长度和序列相关的方式改变聚合动力(图2B-E),这些变量影响non-B DNA结构的类型和稳定性,还形成滑移结构。对于≥2-nt重复单元的STR,聚合动力的变化是周期性的,具有与重复单元的长度匹配的周期(以碱基为单位)。这种模体在三核苷酸STR中尤其明显,其与某些神经系统疾病相关位点的扩展有关联(图2B-D),如(CGG)n、(CAG)n和(GAA)n分别与脆性X综合征、亨廷顿病和弗里德里希运动失调有关。能够形成发夹结构的STR表现出最显著的聚合减速和周期性(图2B、C、E)。相反,形成H-DNA的STR,包括(GAA)n,则会加速聚合(图2D、E)。

碱基修饰或核苷酸组成都不容易解释non-BDNA模体聚合动力学的变化。为什么这么说呢?首先,大多数non-B DNA模体的IPD模型在扩增的DNA中仍可清楚地检测到,这表明变化不是由原始模板DNA中的碱基修饰引起的。另一方面,单核苷酸或二核苷酸组成的成分拟合只解释了无模体窗口间平均IPD变异的相对小的部分。此外,大多数模体窗口的平均IPDs与上述拟合预测的结果有显著差异(图2F)。因此,核苷酸组成远远不能解释non-B DNA模体的IPD变化。 尤其是,仅凭G4+模体中鸟嘌呤的存在不能解释在这些位点观察到的所有聚合减速。

G4链体相关联的聚合动力学和生物物理学特征

为了检测non-B DNA结构能否通过实验形成预期的模体,研究者分析了人类基因组中最常见的10种G4模体来考察聚合动力学与生物物理特性的关系。根据圆二色光谱(CD)和天然聚丙烯酰胺凝胶电泳(PAGE)分析,所有10个模体在低钾浓度下迅速形成稳定的四链体,表明尽管具有不同的分子(分子内或分子间)和链方向(平行或逆平行),它们仍具有形成这种结构的高倾向性。用分子内G4s的回归分析发现,平均IPD与δε(P<2×10-16,R2=32.3%)呈显著正相关(见图3),而平均IPD与熔融温度(P<2×10-16,R2=5.7%)呈显著正相关(通过光吸收获取热稳定性和结构变性的程度)。 由此可以判断,聚合速度减慢与G4形成的生物物理特性相关,也充分说明模体是在SMRT测序反应中形成了G4结构,因此也就能够适配PacBio测序设备60×100nm的测序孔。

图3 G4链体稳定性和聚合动力的关系

Non-B DNA模体影响测序错误率

为了检查phi29聚合酶的准确性在合成基因组中不同类型的non-B DNA模体时是否受影响,研究还比较了模体区域和无模体区域中SMRT测序的错误率,研究者使用与上述IPD分析相同的69×人类基因组计算错误率(见表1)。由于存在STRs分型不准确和重复位点的序列错配的可能性,研究聚焦于基因组非重复部分参考链上存在的六种非STR模体序列类型。研究者仅关注模体本身(而不是包含100bp模体的窗口)并且鉴别出在数量和长度上匹配到六种模体上的无模体区域作为对照,且排除序列和参考基因组之间固定差异的包含模体和无模体的区域,并计算测序错误率作为含模体或无模体区域的核苷酸总数中的变异比例(相对于hg19),甚至包括单个read支持的错误。最后,研究给出新合成链的错误结果(新合成链使用了用non-B DNA模体注释的模板链)。

研究观察到了G4模体对SMRT错误率的强烈影响。当模板链上存在G4s时,新合成的链上的错配显著增加。当模板编码G4+尤其是G4-模体时,SMRT测序中常见的插入错误被抑制。与G4模体相比,Z-DNA显示出低水平的错配和缺失,但插入错误有所增加。综上所述,三种SMRT测序错误率在non-B模体和和无模体区域之间有所不同,在G4-模体处错配和缺失显著增加。接下来,研究又测试了SMRT中错配型错误率是否可以用序列成分来解释。在无模体窗口的SMRT错误率中,只有4.1%的可变性可以用单核苷酸组成来解释。在四种核苷酸中,鸟嘌呤含量与SMRT错误相关性最强,其数量的增加会导致SMRT错误率升高。二核苷酸组成的回归分析也解释了无模体窗口中SMRT错误率相当小比例的可变性(R2=5.6%)。此外,大多数类型的模体(除了A相重复序列外)的SMRT错误率都显著不同于由这种成分回归分析预测的错误率。因此,核苷酸组成不足以解释无模体窗口和non-B DNA模体的SMRT错误率变化。尤其要指出的是,G4+模体中高浓度的鸟嘌呤也无法解释在这些位点观察到的SMRT错误率的增加。

表1 SMRT测序时non-B DNA的错误率

SMRT错误率增加与聚合酶减速尤其是non-B DNA相关

研究者接下来分析了SMRT错误率是否与聚合速度有关。研究关注对SMRT误率影响最强烈的G4+和G4-模体并使用无模体窗口进行对照。研究者拟合了SMRT错配型错误率作为核苷酸组成校正的平均IPD值函数的回归。该模型还考虑了三组区域——G4+模体、G4-模体和无模体窗口——总体R2为35.4%(见图4)。研究发现SMRT错配率与模体窗口中冗余平均IPDs呈显著正线性关系(斜率=0.11,P=2.9×10_10)。有趣的是,G4+的回归线斜率显著高于无模体窗口,而G4-的回归线斜率与无模体窗口相似。由此可以得出结论,SMRT错配型错误与聚合酶减速正相关,且这种关联在G4+中特别显著。

图3 和动力学变化相关的错误

聚合酶速度与突变的产生

众所周知,突变率的发生在基因组中是不均一的,而导致区域变异的机制还没有完全被探明。关于SMRT技术的测序错误的结果以及之前的体外聚合酶研究证实了non-B DNA对噬菌体、原核和真核聚合酶合成DNA的影响,同时也提出了一个有趣的疑问:通过过聚合酶减速,这些模体也会影响活体的突变率吗?除了环境影响之外,突变是聚合酶错误和细胞缺乏修复的结果。研究假设突变主要由聚合酶错误引起,然后对比在人和猩猩分化水平以及人种内多样性水平下高突变率和低突变率的G4+模体之间的SMRT错误率和平均IPD。通过模拟,研究证明小的等位基因突变频率极不可能由Illumina测序在G4模体上增加的错误率引起。因此,研究使用的分化和多样性数据理应是高准确性的。高度分化(或多样化)的G4+模体具有较高的IPD值。此外,高度分化(或多样化)的G4+模体比低分化(或低多样化)的G4+模体具有更高的错误率。据此,研究人员现发分化(或多样化)程度与聚合速度呈负相关,而与SMRT测序错误正相关,表明鸟嘌呤四链体结构不仅影响测序错误率,还会影响活体的种系突变。

本研究首次使用单分子实时(SMRT)技术同时检测DNA聚合动力学和人基因组测序的误差。研究者发现,non-B和B-DNA的聚合速度之间有明显的差异:在G4模体时减速,在致病性的串联重复时呈周期性波动。通过聚合动力学分析,研究预测和验证了一个新的non-B DNA模体的形成,并且证实了一些non-B模体会影响测序错误率例如G-四链体的存在会增加错误率)且测序错误与聚合酶减速正相关。最后,研究证明了高度分化的G4模体具有明显的聚合减慢现象和较高的测序错误率,表明测序错误和种突变具有相似的产生机制。

 

文献精读| PacBio测序助力斑马鱼转录组高精度注释

导读

大家见过斑马鱼吗?

它披着美丽的深蓝色条纹,和斑马的条纹相似,因此得名。别看它个头小,不过4-6cm长,却是重要的模式生物,因为它易于繁殖,花费较少,而且最重要的是和人类基因组相似度很高(87%)。由于斑马鱼基因组注释不完整,关于其转录组的研究常常受到阻碍。在合子基因激活(zygotic genome activation,ZGA)阶段,斑马鱼转录组更是动态表达,其复杂性可想而知。在这种情况下,短读长的二代测序技术无法很好地将这种复杂性呈现出来。所以,来自西奈山伊坎医学院神经内科的研究人员利用PacBio长读长测序技术对斑马鱼ZGA阶段前后的胚胎进行全长转录组分析,获得了高精度的转录组注释结果,研究结果于2018年7月发表于Genome Research。

方法流程

研究者利用PacBio SMRT测序平台对斑马鱼ZGA时期前后的胚胎进行全长转录组测序及二代转录组测序,通过与参考序列比较分析获得了新的转录本及新的异构体。然后运用包括结构预测、序列一致性及功能守恒分析等一系列算法对这些结果进行验证,同时利用二代转录组数据进行定量。

Fig.1 斑马鱼胚胎全长转录组分析流程

研究结果
全长转录组数据分析使用GMAP将全长转录组比对到参考基因组GRCz10,研究者发现有18,777份转录本被成功比对到参考基因组上,仅有3.6%的全长转录组数据未能比对上,与短读长数据(>20%)相比要少得多。将全长转录组数据与GRCz10 RefSeq注释结果比对,发现在15,159个GRCz10 RefSeq注释的转录本中,8005个(52.8%)与全长转录组数据重叠(Fig.2)。与参考序列的高度一致性反映出该组数据的高质量,适合于进行新的转录本的鉴定。

Fig.2 全长转录本对参考转录组GRCz10的覆盖度

为了得到潜在的新型转录本,研究者首先分析了全长转录本与RefSeq转录本的结构相似性,大多数观察到的转录本与潜在的新基因或亚型相对应。结果显示,4205 (22.4%)个转录本被认为是潜在新转录区(NTR)的转录本,5295 (28.2%)个转录本是潜在的新isoforms(Fig.3)。

Fig.3 全长读转录组中潜在的新转录本

NTR区转录本进一步解析

将二代转录组数据比对到增加了NTRs的斑马鱼转录组,结果发现,短读测序数据被成功比对上,还捕捉到了斑马鱼参考基因组注释中缺失的新转录本的全部外显子结构。在经转录抑制剂α-amanitin处理和未经处理的样本中,大部分由长读测序发现的新转录本(分别为89% 和 86%)都有二代测序数据支持(TPM>1)(Fig.4)。

Fig.4 短读长数据支持新转录区

为了确定新的转录区编码蛋白质的功能,研究者分析了这些转录本的蛋白质编码潜力,与已知蛋白质序列的保守性,以及与已知蛋白质结构域的功能关系。他们使用CPAT (Coding-Potential Assessment Tool)工具验证NTRs的蛋白质编码能力,在4205个潜在NTRs中,CPAT鉴定出3255个极可能编码蛋白质的NTRs。

对于可能不编码蛋白质的NTRs,研究者通过两种方法——phyloP 算法和phastCons算法来评估它们在进化中是否存在保守性。研究者观察到,相对于随机对照区域,258个非蛋白编码NTRs转录本的保守性有所提高(24%)(Fig.5A)。

通过与Rfam数据库比对,研究者鉴定出76个匹配的长读长转录本(Fig.5B)。其中有一个特殊的NTR与Rfam数据库中的mir-548匹配,这个转录本仅存在于经转录抑制剂α-amanitin处理的样本中(该样本含大部分母源RNA),而在未经处理的样本中(该样本含大部分合子RNA),发现了一个具有较短的3’尾的该转录本的异构体。这个拥有更长的3’尾的转录本是已知的mir2189一个新的同源物(Fig.5C)。结合以往的研究结果,研究者指出,在这一对转录本中,母系转录本拥有更长的3’尾,这可能是推测的靶点,也可能是miRNA结构本身,且参与了母体向合子转变的调控过程。

Fig.5 非编码NTRs特征

新的转录异构体

为了完善的预测的新异构体列表,研究者还量化了可选剪接事件的数量,并将剪接事件类型的分布与RefSeq注释中观察到的情况进行了比较(Fig.6)。基于长读长测序数据,研究者发现了超过2000个新的可变剪接事件,可见长读长的转录组测序可以鉴定到更全面的可变剪接情况

Fig. 6 长读长测序与参考序列中的AS事件比较

研究者使用短读长数据量化在胚胎发育早期和晚期样本中发现的新异构体,分析表明:在胚胎发育晚期,可变的3’UTR及内含子保留的可变剪接形式有所增加(Fig.7A)。接下来,研究者还利用PCR实验验证了长读长数据对mvktead3bsrsf7ah3f3c等基因的可变剪接分析能力(Fig.7B)。

Fig.7 斑马鱼ZGA阶段前后的可变剪接事件(A);PCR验证实验结果(B)

此外,研究者还发现和验证了一种跨越多个mir-430元件的新的8 kb转录本,这是胚胎早期发育的重要驱动因素。

这项研究利用长读长测序技术在转录组研究中的显著优势,解析了斑马鱼ZGA阶段前后复杂的转录组动态变化,为斑马鱼转录组提供了高分辨率的注释资源。

PacBio的全长转录组测序技术为研究者提供了一个可以全面观察转录组动态变化的机会——无需拼接,直接获得转录本全长,可获得更多被二代短读长数据遗漏的novel 基因及isoforms,更真实地反映转录组全貌,这将为转录组学研究带来更多新的机遇。

翘首未来丨聚焦准确度,Oxford Nanopore 火力全开

通过之前的了解,我们已经知道Nanopore测序主要依赖于合成聚合物膜上的纳米孔,DNA/RNA链通过纳米孔时,产生电流信号,经base call可转化为碱基序列信息。从DNA/RNA链转换为碱基序列的过程中,化学试剂、测序模式、base call的准确度等方面都将影响到最终的碱基质量值(碱基质量值是衡量测序质量的重要指标,质量值Q越高代表碱基被测错的概率越小)。Oxford Nanopore Technologies(以下简称ONT)公司对于这些方面也做了一系列的开发和优化。在近日的Nanopore科研团体大会(NCM2018)上,Oxford Nanopore首席技术官Clive G Brown在会上展示了ONT团队针对Nanopore测序仪用户最关心的准确性问题做出的努力及研发成果,一起来看看在提升准确度方面ONT团队到底做了哪些升级吧~


图1 Nanopore测序示意图

从R9.4.1到R10

R9.4.1版纳米孔是目前Nanopore测序通用版本,有一个纳米孔通道,一个read head。R10 是一种新型的纳米孔,其纳米孔通道更长,具有两对Reader heads(图2)。这意味着可以产生更多的碱基控制信号以达到更高的准确度。在内部测试中,以75×覆盖度,新的R10纳米孔碱基质量值可超过Q40。ONT研发团队已开始着手于R10的测试工作,并发现了其中需要提升的部分。R10试剂有望在2019年早期公开发布。


图2 R9.4.1与R10版纳米孔

新的basecaller:flip-flop

这个基于flip-flop算法的basecaller软件同时适用于R9和R10版本试剂的测序数据,使用flip-flop重新识别现有数据(R9数据),碱基质量值可达到Q37。甲基化分析也被整合到了其中,现在已经允许使用R9.4进行5mC (CpG)的识别。这个软件将在12月中旬通过Guppy软件发布。ONT公司目前正在进行R10版本的工作,预计质量值可提升至Q42。用户可以通过http://bit.ly/2Q0EApc访问新碱基识别软件。

Linear Consensus Sequencing (LCS)测序模式

Clive勾勒了一个新的名为线性一致性测序(LCS)的方法。这种方法将一条链的数条拷贝结合在一起,通过一条读长进行测序,以获得更高的准确度。LCS测序模式保留原始模板链,可检测到链上的碱基修饰信息。

图3 线性测序Linear Consensus Sequencing (LCS)

8B4文库制备方法

8B4是一种新的文库制备方法,一个提升准确性的新文库制备方法可获取更丰富的信号。ONT公司目前正在精调8B4的碱基识别和共有序列方法。

1D2建库测序方式

1D2测序模式对DNA的两条链均进行了测序(图4),在保留碱基修饰的同时,提高单碱基准确率。1D2建库测序方式的更新将单条read准确度提高到了98%。新的1D2化学试剂含有带独特识别器(unique pairing identifiers, UPIs)的连接接头,支持用于扩增子测序。

图4 1D与1D2测序

ONT的这些更新将极大地提升Nanopore测序的准确性及碱基修饰的识别能力,使Nanopore测序的应用范围更加广阔,Nanopore测序技术将在动植物基因组组装、微生物基因组、全长转录组、结构变异检测及病原菌检测等领域具备独一无二的优势。

(内容整理自OxfordNanopore微信公众号)

参考链接:
https://mp.weixin.qq.com/s/ooZbJzsuAaeQQdBnN5lozg