近期两篇Nanopore组装果蝇基因组文章预印,低于$1,000 价格又搞定一个模式生物

2018年2月18日,bioRxiv同时预印两篇使用Oxford Nanopore测序组装果蝇基因组的论文,两个不同机构的研究人员不约而同选择了时下最热门的纳米孔测序手段来获得果蝇的基因组,侧面反映出大家对这个技术的关注是so hot~。如果您也有意尝鲜组学新技术,当然请联系未来组。

以下是两篇文献的简单介绍

论文一 一种黑腹果蝇基因组组装

研究中使用黑腹果蝇D. melanogaster (ISO1)基因组DNA在Oxford Nanopore MinION掌上测序仪上测序1个 flowcell,以其中长度在1kb以上的reads(约30×的测序深度)与二代数据结合进行混合组装,加上Bionano光学图谱数据辅助scaffolding,获得高准确度、高连续度和高完整度的基因组组装结果:Contig N50:18.9Mb,BUSCO评估97.1%。

通过与参考基因组进行比较,揭示了大量结构变异,包括与发育、行为、代谢基因相关的novel LTR转座元件的插入和复制等,这些结构变异有助于研究后生动物基因组进化。

文中提到完成该基因组的费用不超过$1,000。

参考文献

SOLARES,Edwin A., et al. Rapid low-cost assembly of the Drosophila melanogasterreference genome using low-coverage, long-read sequencing. bioRxiv,2018, 267401.

论文二 15种不同的果蝇基因组组装

研究对果蝇属的15种果蝇进行了平均深度29×的Nanopore测序,使用minimap2 和miniasm快速组装,平均Contig N50: 4.4Mb。经过自身校正和二代校正后,BUSCO评估数值平均为97.7%。

通过与这些果蝇以往参考基因组对比,结果表明,平均填补了参考基因组中约60%的gap(Table 2)说明长读长测序数据的引入,有助于提高基因组组装的连续度和完整度。Fig.1 以D. erecta参考基因组中Scaffold_4845和本研究中对应的Contig(utg0000101)对比为例,展示了以Nanopore数据组装获得的一个17.4Mb的contig(utg0000101)填补了参考基因组中由38个contigs组成的Scaffold 4845中的gaps,解析了3.7 Mb参考基因组中的未知序列。

Fig.1参考基因组中的gaps能被长读长测序数据填补 

文中也提到,每个基因组的费用都未超过$1,000。

参考文献:

MILLER,Danny E., et al. High-quality genome assemblies of 15 Drosophila speciesgenerated using Nanopore sequencing. bioRxiv,2018, 267393.

长读长Nanopore测序数据的引入能明显增强基因组组装的连续性和完整度,为进一步深入研究种群结构遗传变异的进化和功能打开了一扇门。Nanopore 更高通量的新款测序仪PromethION已经上市,每个Run理论产出6.2TB,未来单GB数据价格会进一步下降,敬请持续关注。

未来组于2017年引进Oxford Nanopore平台,在2018年初率先获得Oxford Nanopore测序认证服务供应商资质认证。未来组将持续扩大Oxford Nanopore测序平台,打造包含三代单分子测序、光学图谱、三维基因组学等多方位的组学研究中心,还将在RNA直接测序、表观转录组学等领域进行深度的探索。

组学新技术尝鲜当然要找未来组

延伸阅读

Nanopore组装动植物基因组盘点及文献下载

里程碑丨Nanopore测序组装人类基因组终见刊NBT,牛津纳米孔公司携手未来组推“1000个中国人基因组结构变异检测计划”

未来组–中国首家通过Nanopore官方测序服务认证

Naturemethods丨基于Nanopore的direct RNA测序方法测评,你要不要来试试?

比较基因组学研究揭示萤火虫荧光素酶基因的起源与进化

为了揭示萤火虫荧光素酶基因的遗传基础及其起源、进化过程,Timothy R. Fallon等人用PacBio+Illumina+Hi-C多技术结合的策略组装出了高质量的北斗七星萤火虫(Photinus

pyralis,Lampyrinae亚科)基因组,解决了其中与荧光素酶基因相关的串联重复序列。同时,研究者还对日本萤火虫(Aquatica lateralis,Luciolinae亚科)和发光磕头虫(Ignelater luminosus,叩甲科)进行Illlmina基因组测序并完成组装。通过对这三个荧光甲虫进行比较基因组学和转录组分析,对发光甲虫的发光和化学防御机制在近1亿年来的进化历程提出了新的见解。

基因组组装结果

研究者对三种物种分别运用了不同的策略进行基因组组装,结果见Table 1。北斗七星萤火虫因引入三代长读长测序数据及Hi-C辅助组装,ScaffoldN50高达50Mb,还组装出了富

含~1kb串联重复序列(TRU)的线粒体基因组(Fig.1a)。

BUSCO评估显示这三个基因组的组装完整度均超过了93%,高质量的基因组为后续的生物发光研究提供了有价值的参考信息。

Table 1北斗七星萤火虫、日本萤火虫和发光磕头虫的基因组组装结果比较

Fig.1 北斗七星萤火虫线粒体基因组示意图(a);北斗七星萤火虫、日本萤火虫、发光磕头虫和黑腹果蝇基因维恩图(b)

经注释,发现北斗七星萤火虫、日本萤火虫和发光磕头虫中的编码基因分别有15,770, 14,285和27,552个,经Orthofinder pipeline分析发现北斗七星萤火虫和日本萤火虫的基因具有很大的相似性,而发光磕头虫则大不相同(Fig.1b)。

荧光素酶基因的进化历程

萤火虫的荧光来自于其体内的一系列化学反应:小分子基质荧光素在有O2、Mg2+和ATP存在的条件下,被荧光素酶催化形成脱羧产物氧化荧光素,从而发光。研究者推测萤火虫的荧光素酶基因是由一个祖先基因——过氧化物脂肪酰基辅酶A合成酶基因(PACS)进化而来,

因为它和与它密切相关的非生物发光的旁系同源基因都具有脂肪酰基辅酶A的合成活性(Fig.2)。叩甲科和萤科的荧光素酶属于同一蛋白超家族,且它们的发光机制及荧光素的化学性质都相同,说明这两科的荧光素酶基因应该是同一起源,与以往系统发育学研究中关于这两个家族的的荧光素酶基因是独立起源的假说不同。

Fig.2荧光素酶的催化机制与脂肪酰基辅酶A合成酶的催化机制相关

通过对基因结构进行比较,研究者发现北斗七星萤火虫和日本萤火虫中都存在Luc1和Luc2这两个荧光素酶基因,其中Luc1是萤火虫的一个直系同源基因,位于一簇过氧化物脂肪酰基辅酶A合成酶(PACS)和非过氧化物脂肪酰基辅酶A合成酶(ACS)基因当中,广泛存在于多种萤火虫基因组;以往研究认为旁系同源基因Luc2仅存在于少数包括日本萤火虫在内的亚洲类群当中,而本研究的基因组组装分析结果显示:在北斗七星萤火虫和日本萤火虫这两类萤火虫基因组中,Luc1和Luc2这两个荧光素酶基因都存在且位于不同的染色体上。

萤火虫的荧光素酶基因及与其密切相关的旁系同源基因的基因结构普遍含有串联重复序列。荧光素酶基因Luc1和Luc2在基因结构上都比较保守,由七个保守的外显子构成。萤光素酶、

PACS和ACS的系统发育分析表明,Luc1和Luc2代表两个密切相关的直系同源基因,并且与Luc1邻近的PACS和ACS是共直系同源的,虽然共线性关系不太清楚,这可能是由后来的基因重排造成的(Fig.3)。

Fig.3荧光素酶基因共线性分析

数据说明串联基因的复制产生了PACS的几个旁系同源基因,其中一个新功能化成为萤光素酶祖先基因(AncLuc)。AncLuc原位产生了Luc1,而Luc2则可能是在1亿年前AncLuc发生了远程基因复制事件形成的;随后发生基因重排从而产生了萤火虫的两个亚科——Lampyrinae亚科和Luciolinae亚科。基于以上推测,研究人员绘制了萤火虫荧光素酶基因进化模型(Fig.4)。

Fig.4 萤火虫荧光素酶基因进化模型

此外,研究者还利用RNA-Seq技术对三种发光甲虫不同性别、不同组织部位、不同发育时期的基因表达进行了解析,分析了在荧光素酶代谢过程中起关键作用的基因。

DNA测序技术及生物信息技术的发展为物种的起源和进化研究提供了有力的科学依据。本研究提供了一个适用于大多数物种的基因组测序组装策略,利用二代短读长测序数据结合三代PacBio长读长测序数据,并使用其他大片段技术(如Hi-C等)辅助,可以组装出跨越串联重复序列、端粒、着丝粒等特殊区域的高质量基因组。获得高质量的参考基因组将会极大的延展研究者对研究对象的遗传多样性上的认识,进一步揭示物种之间的进化关系。

参考文献:

Fallon T R, Lower SE, Chang C H, et al. Firefly genomes illuminate the origin and evolution of bioluminescence[J]. bioRxiv, 2017: 237586.

图片来源于网络|侵删

2017农历年前,Nanopore组装动植物基因组盘点

Oxford Nanopore Technology(ONT)的概念从上个世纪80年代就提出来,但从理论到商业化应用,走了二十多年。2014年,ONT对外提供MinION试用项目计划(MAP),随后几年不断对早期版本仪器的高错误率和低通量问题进行改善。从2016年开始,Nanopore平台通量得到较大提升,错误率也显著降低,在基因组中的应用已从小基因组逐渐延伸到复杂动植物基因组中的应用,而更高通量平台GridION X5 和PromethION的发布将对Nanopore在复杂物种中的应用更为简单和便捷。

高质量的参考基因组是深入进行物种起源进化和基因功能研究的前提,利用Nanopore长读长测序技术,读长最高可达>1Mb,克服高杂合、高重复、多倍体等组装难题,有助于获得更完整、更连续的参考基因组。近两年已有数篇基于Nanopore数据的基因组文章发表,请听组学君娓娓道来。

NBT~30×普通reads+5×ultra long reads组装人类基因组,NG50: ~6.4 Mb[1]

文章在2017年4月预印,2018年1月29日正式发表于Nature Biotechnology。研究结果显示:低覆盖深度测序(~30×普通nanopore reads+ ~5× ultra-long reads)即能将基因组Contig N50组装到6.4Mb,填补了参考基因组(GRCh38)中12个gap,是来自单一测序手段得到的迄今最连续的人类的基因组。

NC丨单个Nanopore flowcell数据组装拟南芥基因组,N50高达12Mb[2]

文章在2017年6月预印,2018年2月正式发表于Nature Communications。文中使用便携式U盘大小Nanopore MinIon对拟南芥(KBS-Mac-74 accession)测序1 flow cell,使用家用电脑水平的硬件(4核,16Gb RAM),耗时4d完成组装。

随着测序仪价格平民化,旧时王谢堂前燕,已飞入寻常百姓家。日后随着测序成本进一步下降,即使仅为了解基因组单个区域的复杂结构变异,组装完整的基因组也将成为实现这一目标的最简单的方法。

PC丨第一个正式发表的Nanopore大型植物基因组,野生番茄[3]

2017年10月,野生番茄(Solanum pennellii)基因组文章发表于The Plant Cell。31个MinION flowcell测序,通过Canu-SMARTdenovo组装,得到了高质量的番茄基因组。Contig N50 达2.45 Mb,经Nanopolish及pilon迭代校正后,碱基错误率<0.02%,基因组完整性评估96.53%。

研究者最后粗略估算了下成本,对于这种中等大小的植物基因组(<2Gb)的Nanopore测序,在当时当地情况下,项目预算低于$25000,其他开销主要是计算资源,人力成本和耗损等。另一方面,Nanopore测序下机数据含有CpG甲基化数据信息,在不需要增加成本的情况下,可利用甲基化信息对物种进行深层次的表观关联研究。

Genome Research丨秀丽隐线虫基因组[4]

文章于2017年1月预印,2018年2月正式发表于Genome Research。文中借助Oxford Nanopore测序技术对秀丽隐杆线虫的两个品型(野生型;带有两个复杂染色体重排区域的突变型)进行了全基因组测序,通过~60×Nanopore数据,组装出野生型秀丽隐杆线虫基因组(仅由48个contig组成,N50达3.99Mb,覆盖了参考基因组>99%的区域),完善了秀丽隐杆线虫参考基因组,并基于高质量的参考基因组研究突变型中复杂的重排机制。

BMC Biology丨巴西日圆线虫基因组[5]

文章2018年1月发表于BMC Biology,研究者以巴西日圆线虫(Nippostrongylus brasiliensis)为材料,采用目前读长最长的Oxford Nanopore测序技术,对其基因组进行de novo组装,并加入二代参考基因组进行比较,结果显示:基于长读长的基因组组装,能更好地覆盖串联重复等复杂区域。

目前正式发表的纯Nanopore de novo组装动植物基因组就是这5篇文章[1-5],另外还有Nanopore+Illumina混合组装案例,墨瑞鳕鱼、欧洲鳗、耐盐水稻、小丑鱼,请见如下汇总表[6-9]。文献下载请见文末。

随着高分文章的发表,Nanopore技术的应用日渐成熟,并被广泛认可。Oxford Nanopore公司也在改进其价格、准确度、读长、产量、便携性等方面持续发力,比如即将推出的更高通量的PromethION测序仪,拥有3000个通道和单个flow cell 120G的产量,48h内产量可达6.2T,为更大规模更复杂物种的基因组快速测序提供了可能。而产量的提高必然会带来价格的下降,也将会促进各个方面应用,除了动植物基因组de novo测序,2018年Nanopore还将会在重测序、结构变异检测、目标区域捕获测序、全长16s测序、宏基因组测序、甲基化测序等领域升级应用,尤其是转录组研究领域,direct RNA sequencing将会有一波新的应用场景。另外直接蛋白质测序,也是非常值得期待的亮点之一。在提高测序读长和碱基准确度方面也在持续改善,1D2文库搭载R9.5芯片,可使单碱基原始准确率提高到95%左右;ultra long 建库方式,可获得N50接近100k,最长超过1M的Reads。这使得动植物基因组完成图,多倍体物种单倍体分型等不再遥远。

参考文献

[1] Jain M,Koren S, Miga KH, etal. Nanopore sequencing and assembly of a human genome with ultra-long reads.Nature Biotechnology, 2018

[2] MICHAEL,Todd P., et al. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell. Nature Communications, 2018, 9.1: 541.

[3] SCHMIDT,Maximilian H.-W., et al. De novo assembly of a new Solanum pennellii accession using nanopore sequencing. The Plant Cell, 2017, 29.10: 2336-2348.

[4] TYSON, JohnR., et al. MinION-based long-read sequencing and assembly extends the Caenorhabditis elegans reference genome. Genome research, 2018, 28.2: 266-274.

[5] ECCLES,David, et al. De novo assembly of the complex genome of Nippostrongylus brasiliensis using MinION long reads. BMC biology, 2018, 16.1: 6.

[6] AUSTIN,Christopher M., et al. De novo genome assembly and annotation of Australia’s largest freshwater fish, the Murray cod (Maccullochella peelii), from Illumina and Nanopore sequencing read. GigaScience, 2017, 6.8: 1-6.

[7] JANSEN,Hans J., et al. Rapid de novo assembly of the European eel genome from nanopore sequencing reads. Scientific Reports, 2017, 7.1: 7213.

[8] MONDAL,Tapan Kumar, et al. First de novo draft genome sequence of Oryza coarctata, theonly halophytic species in the genus Oryza. F1000 Research, 2017, 6.

[9] TAN, MunHua, et al. Finding Nemo: Hybrid assembly with Oxford Nanopore and Illumina reads greatly improves the Clownfish (Amphiprion ocellaris) genome assembly.GigaScience, 2018.

图片来源于网络|侵删

Nanopore测序揭露线虫基因组中复杂串联重复序列

真核生物的基因组组装一直是个难题,而线虫基因组更是含有大量的卫星DNA等重复序列,短读长的测序手段往往对此束手无策。而三代长读长测序技术的发展为复杂基因组研究带来了希望。

研究者以巴西日圆线虫(Nippostrongylus brasiliensis)为例,采用目前读长最长的Oxford Nanopore测序技术,对其基因组进行de novo组装,并加入二代参考基因组进行比较,结果显示:基于长读长的基因组组装,能更好地覆盖串联重复等复杂区域。

材料和方法

材料:巴西日圆线虫(Nippostrongylus brasiliensis)

测序平台:Oxford Nanopore MinION
(未来组配备Nanopore升级平台GridION X5,实时base calling,通量更大,效率更高)

比较结果

1.基因组组装

与以往WTSI的二代参考基因组比较,组装指标大幅度提升(Contig N50: 33.5Kb→209.2Kb)。

Table 1组装结果比较

2.组装评估

经不同方法校正后的BUSCO值比较,表明经三代Nanopolish自我校正后,MinION reads的组装质量优于WTSI参考基因组。

Table 2 不同方法校正后的BUSCO值比较

3.对串联重复序列的识别

由于Nanopore长读长测序能有更好的overlap关系,有助于识别复杂的重复单元。例如,本研究组装出的线虫基因组中,检测到一个由171bp的重复单元构成的21kb的串联重复序列的存在,但在二代参考基因组中未能识别出来(Fig.1)。

Fig.1一个74kb的MinION read与WTSI参考序列的比对(a);MinION read鉴定出WTSI参考序列中存在一个复杂串联重复序列(b)

与二代参考序列相比,Nanopore组装能更好地反映N. brasiliensis基因组中重复序列的多样性(Fig.2)。

Fig.2 WTSI二代参考序列中的重复序列分析(a);
Nanopore组装中的重复序列分析(b)

二代短读长测序技术在富含大量重复片段的基因组测序中存在不足,而三代长读长测序是解决含复杂重复串联序列基因组的一大利器。在本研究中,研究者通过应用单纯的MinION data,辅以改良的Base-calling算法Albacore和升级的Canu v1.5组装手段得到了不逊色于Illumina的线虫基因组。

参考文献

David Eccles, Jodie Chandler, Mali Camberis, etal. De novo assembly of the complex genome of Nippostrongylus brasiliensis using MinION long reads[J]. BMC Biology, 2018, 16(1):6.

里程碑丨Nanopore测序组装人类基因组终见刊NBT,牛津纳米孔公司携手未来组推“1000个中国人基因组结构变异检测计划”

1月29日,Nature Biotechnology在线发表基于Nanopore超长读长组装人类基因组的研究论文[1]。研究结果显示:低覆盖深度测序(~30×普通nanopore reads+ ~5× ultra-long reads)即能将基因组Contig N50组装到6.4Mb,填补了参考基因组(GRCh38)中12个gap,是来自单一测序手段得到的迄今最连续的人类的基因组。

研究人员通过Nanopore MinION测序平台获得的ultra-long reads,最长读长达到了882kb。基于最先进的测序方法分析人类基因组中先前难以攻克的复杂区域,例如评估人类染色体端粒长度;完整地组装出6号染色体上的MHC区域(位于单个contig上)等,这是MHC首次在二倍体人类基因组中被准确地定向。

此次Nanopore测序组装人类基因组研究论文的发表,对新测序技术的推广应用和更连续的人类参考基因组在临床医学研究中的应用意义深远。

预印版的解读请见Nanopore测序组装人类基因组

未来组作为牛津纳米孔公司(Oxford Nanopore Technology)官方认证的中国测序服务公司,率先于2017年9月将Nanopore测序技术引进回国,目前已配备有20台GridION X5和2台MinION测序仪,约4个月的时间内已完成牛津纳米孔测序数据产出>2Tb,所有数据达到官方标准,符合交付指标。

未来组后续会陆续购入通量更高的PromethION测序仪,并与牛津纳米孔公司携手,推出“中国人基因组结构变异检测计划”[2]将在2年内对~1000个个体基因组中倒位、易位、重排、拷贝数变异等1 kb~3 Mb亚显微水平的基因组结构变异进行精准定位和分析,突破二代测序短读长瓶颈,造福人类健康。

参考文献

[1] Jain M, Koren S, Miga KH, etal. Nanopore sequencing andassembly of a human genome with ultra-longreads.Nature Biotechnology, 2018

编译参考链接:

[2]https://nanoporetech.com/about-us/news/most-complete-human-genome-assembly-date-using-single-tech-nature-biotech-paper

延伸阅读

基于Nanopore测序的结构变异分析【染色体碎裂病例解析】
欢迎来到Oxford Nanopore测序技术新世界
Oxford Nanopore丨人转录组direct RNA测序数据首发

Nature丨“六角恐龙”-美西钝口螈基因组(32Gb)

1月24日,Nature在线发表美西钝口螈(Ambystoma mexicanum)(~32Gb)基因组组装结果,是迄今组装完成最大的基因组。文章中开发了新算法MARVEL,实现了对超大基因组低深度三代测序数据的组装。基因组信息显示,内含子和基因间区的极大扩张助于形成如此规模的基因组。美西钝口螈基因组中不包含其它已知脊椎动物基本的发育基因Pax3,其基因功能由旁系同源基因Pax7 代偿。

Fig.1美西钝口螈(Ambystoma mexicanum)

研究结果

  1. 基因组组装

基因组组装流程(Fig.2A):32×PacBio SMRT测序+Bionano光学图谱+MARVEL新算法。MARVEL新算法集成两阶段reads校正程序,可以保持长reads的完整性。组装Congtig N50:216kb,Scaffold N50:3Mb,基因组大小:32.4Gb。基因组中重复序列占65.6%(18.6Gb),说明如果能在长区段重复序列有很好的覆盖和跨越,对基因组组装起至关重要的作用。本文中使用的PacBio和近期火热的Oxford Nanopore并称三代单分子长读长测序,能更好地覆盖长重复序列区域(示例,Fig.2B),有助于复杂基因组组装。

Fig. 2 A基因组组装流程

B 长读长测序有助于覆盖长重复序列示例

  1. 长末端重复逆转录因子扩张

美西钝口螈基因组中重复序列高达18.6Gb,其中LTR和LINE是最主要的类别(Fig.3),其中不少长度超过10kb,并且组装出的97%的contigs都以LTR元件结尾。

Fig.3 A重复元件类型分析

B 通过GyDB2.0对重复序列注释并构树

通过重复元件的相对形成时间分析得知:美西钝口螈基因组经历了持续时间很长的转座子活跃期,随后发生了近期持续性爆发式的重复序列扩张(Fig.4),大规模的重复序列扩张让美西钝口螈拥有如此庞大的基因组。

Fig.4 Relative age (Kimura distance)

  1. HoxA 基因簇和受限的内含子大小

HoxA基因在肢体的近远轴(proximal-to-distal)发育中发挥重要作用,并且在断肢再生过程中会被重新活化。本研究中美西钝口螈的HoxA基因位点在单个contig上,含有明显的重复区域,比人类和蛙类的该基因大3.5倍,可能是由于该基因簇中在HoxA3和HoxA4之间存在一段170kb的扩张。

Fig.5 HoxA 基因簇的基因和重复元件比较分析
(人类、蛙类、美西钝口螈)

研究人员还比较分析了人类、小鼠、蛙类和美西钝口螈之间大量同源基因的内含子大小,结果发现(Fig.6):美西钝口螈中非发育基因平均大小是其它物种的13-25倍,而发育基因的内含子扩张倍数相比较低(6-11倍);并且与人类、小鼠和蛙类相反,美西钝口螈中发育基因的内含子比非发育基因的内含子要短。多种证据显示美西钝口螈中与发育相关的基因限制了自身内含子大小,原因可能是:在某些特殊的发育期,更小的基因大小有助于迅速地转录,从而上调基因表达

Fig.6 人类、小鼠、蛙类和美西钝口螈之间的
发育基因和非发育基因中的内含子长度比较

  1. 某些Pax家族成员缺失

通过基因注释和基因家族分析,在美西钝口螈中鉴定出了Pax4 缺失(其它两栖动物和脊椎动物也缺失Pax4),和Pax3 缺失(然而所有其它已知的脊椎动物都含有Pax3)。为了进一步验证美西钝口螈中Pax3 的缺失,研究人员1). 在基因组测序以及转录组测序的原始数据未发现Pax3的序列,2). 检查了Pax3 基因区域的邻近基因和高保守非外显子元件(non-exonic elements, CNEs),发现在小鼠的Pax3 附近的基因Sgpp2Epha4以及CNEs也同样存在于美西钝口螈中,但未找到Pax3 或者任何与Pax3 相关的CNEs(Fig.7)。这些证据说明,美西钝口螈丢失了Pax3 及与之相关的顺式作用元件。

Fig.7 美西钝口螈中,四足动物Pax7 和Pax3位点的保守基因和CNEs分析

  1. Pax7功能研究

在其它脊椎动物中,Pax3 和Pax7 都对肌肉、神经管和神经鞘等组织的发育起重要作用,尽管它们有一部分功能类似,但两者中任何一个的缺失都会导致很明显的表型变化(小鼠)。然而美西钝口螈缺失了其它四足动物都有的Pax3 基因后,由Pax7 承担起了类似的基因功能。为了更深入地研究美西钝口螈中Pax7的功能,研究人员利用TALEN和CRISPR-mediated基因编辑,形成不同的Pax7突变(Fig.8 a)。在子代中进行表型分析(Fig.8b-h)并以PCR和蛋白检验做验证。

本研究中的结果总的来说是:美西钝口螈中Pax7 基因的变异带来的表型变化,是其它脊椎动物中Pax3- 和Pax7- 突变表型的合集。后续可以进一步分析Pax7 基因在美西钝口螈中是如何调节,使得其绕过了Pax3 基因的丢失在其它脊椎动物中带来的发育影响。

Fig.8美西钝口螈Pax7 突变体与小鼠Pax3−/−Pax7−/−突变体有类似的表型

蝾螈的断肢再生功能具有非常重要的临床研究意义,此次美西钝口螈基因组的完成,与以往的单纯转录组数据相比,为研究提供了更为完整的参考信息。

参考文献

Sergej Nowoshilow, Siegfried Schloissnig, Ji-Feng Fei , et al. The axolotl genome and the evolution of key tissue formation regulators.Nature.2018

图片来源于网络|侵删

新技术结合多组学,初迈基因组完成图新时代

真核基因组比较复杂,拥有很多重复序列,因此真核生物的基因组de novo组装一直是科研难点,用以往的测序手段几乎不可能得到完整的基因组图谱,NCBI数据库中拥有完整基因组的物种不到1%。但三代长读长测序技术的加入,将不可能变成了可能。

在本周发表在Nucleic Acids Research上的一篇文献中,研究者将Oxford Nanopore Technology(ONT)、PacBio技术和Illumina数据结合,完成了酿酒酵母Saccharomyces cerevisiae CEN.PK113-7D的完整基因组组装,并用Nanopore的direct RNA测序技术完成了酵母的全长比较转录组分析。

–‒-‒–内容精炼–‒-‒–

酵母基因组完成图:长读长测序Oxford Nanopore、PacBio SMRT混合组装,Illunima数据辅助校正,完成酵母基因组完成图(包括16条核基因组染色体及1个线粒体)

比较基因组分析:与已发表的S.cerevisiae S228C基因组比较,发现S.cerevisiae CEN.PK113-7D基因组中的大量染色体重排事件

全基因组碱基修饰图谱构建:5mC, 4mC和6mA

Direct RNA比较转录组测序:在获得全长转录本的同时,量化不同条件下的基因表达差异

研究结果

基因组组装及比较基因组学

1.基因组完成图组装

短读长测序在染色体末端靠近端粒处基因组图谱构建中存在明显劣势(Fig.1e),且缺失了线粒体基因组和Ⅻ染色体中部区域,而三代长读长测序却可以准确测出拥有大量重复序列的线粒体基因组和Ⅻ染色体中部区域,表现为更显著的测序深度(Fig.1d)。

Fig.1 The completeCEN.PK113-7D genome obtained from de novo assembly and its comparisons 

2.全基因组表观修饰

在CDS上游的DNA甲基化被认为与转录调节相关,本研究利用PacBio测序鉴定出了数千个4mC和6mA修饰,其中359 个4mC位点和297 个6mA位点位于CDS上游,可能调节这些CDS的转录;同时,S. cerevisiae曾被认为不含5mC,但在本研究中,利用 ONT技术鉴定出40个5mC修饰(Fig.1c),这些位点均不在CDS上游区域,暗示着可能行使其它功能。

3.比较基因组学研究

通过比较S.cerevisiae CEN.PK113-7D基因组与已发表的S.cerevisiae S228C基因组,发现二者有高度的一致性,共有5969个ORF(Fig.1f)。并且使用LAST软件比对这两个基因组,发现了555个染色体重排事件,其中>1kb的区段有35个(Fig.1b)。

Fig.2Results obtained from chromosomal rearrangement analysis

between CEN.PK113-7Dand S288C for synteny in panel (A) and translocation in panel (B).

此外,通过三代的长读长测序优势,研究者还分析了32个含有ORF的变异区段并发现其中有12个位于IV、VIII、IX和Ⅻ染色体上的共线性现象及VII染色体上的两个易位变异(Fig.2A)。此外,研究者还发现了9条染色体上的19个易位事件(Fig.2B)。

比较转录组

酿酒酵母在以葡萄糖为碳源的条件下生长会经历两个阶段(以葡萄糖为碳源的无氧呼吸和葡萄糖耗尽后以乙醇为碳源的有氧呼吸阶段)。在这两个阶段之间酵母细胞会对自身基因表达进行调整,以适应新的环境。

研究者用direct RNA测序技术对S. cerevisiae CEN.PK113-7D生长的这两个阶段进行比较转录组测序分析。

1.基因表达量分析

ONT direct RNA测序在以葡萄糖为碳源的生长阶段共获得~509Mb数据,包含~530,000条高质量reads,N50值为1,150 bases;在以乙醇为碳源的生长阶段共获得~623Mb数据,~623,000条高质量reads,N50值为1,263 bases。直接RNA测序得到的两个生长阶段的序列长度与基因组注释的结果一致(Fig.3A)。通过ONT direct RNA测序技术得到的转录本中有超过70%的转录本为全长转录本(Fig.3C)。

Fig. 3 Summary of thedirect RNA sequencing data

在S.cerevisiae CEN.PK113-7D的两个生长阶段中,有22个转录本拥有超过5000条reads,并且Fig.3B展示了不同代谢途径中,几个关键酶基因的差异性表达。Gene ontology分析(Fig.4)也反映了在这两个代谢过程中营养方式的改变导致的一系列基因表达的差异。

Fig.4 Heatmap illustration of the directionalenrichment

score of gene-set enrichment analysis of geneontology

2.转录本结构分析

传统的RNA-Seq技术中反转录、PCR扩增、短读长测序都会引入测序偏好性,让测序数据不能均匀覆盖整个转录本,造成对结果的误读和漏读。研究者通过ONT长读长测序技术发现在VIII染色体上的两个基因转录时聚合酶II越过了第一个ORF末端,继续转录直到第二个基因终止(Fig.5)。通过将ONT数据(Fig.5上图)和Illumina数据(Fig.5下图)进行比较分析,可见ONT的长读长可以清晰地将这一现象反映出来,而Illumina短读长则不能完全覆盖这一区域。

研究者在转录组数据中还发现了一些高度可信的非编码外显子ORF,例如rRNA、lncRNA及反义RNA等,为更深入的转录组学研究提供基础。

基于Oxford Nanopore和PacBio的三代长读长测序技术的发展及应用预示着“基因组草图时代”将过渡到“基因组完成图时代”,为比较基因组学研究奠定了坚实的基础。作为三代基因组测序中心,未来组通过增加产能、优化流程、持续扩大前期积累的三代测序优势;目前已配备有11台GridION X5和2台MinION测序仪,并于2018年1月17日率先通过Oxford Nanopore Technologies Limited(牛津纳米孔技术有限公司,ONT)官方认证,获得Nanopore DNA测序认证服务供应商资质。后续会购入通量更高的PromethION测序仪,致力于为合作伙伴提供高质量、超快捷的基因组学研究测序服务。

参考文献:

Jenjaroenpun P, Wongsurawat T, Pereira R, et al. Complete genomic andtranscriptional landscape analysis using third-generation sequencing: a casestudy of Saccharomyces cerevisiae CEN. PK113-7D[J].Nucleic Acids Research, 2018:1-15.

Nanopore长读长测序让基因组组装更连续,小丑鱼Nanopore和Illmina混合组装基因组发表

小丑鱼主要栖息于泻湖及珊瑚礁区,与海葵有着密不可分的共生关系,因此又称海葵鱼。小丑鱼雌雄同体及与海葵互利共生的特性,吸引了研究人员广泛的关注。2018年1月在GigaScience发表了关于澳洲小丑鱼(Amphiprion ocellaris)的第一个利用Nanopore和Illumina混合组装基因组文章。研究结果显示,Nanopore数据的引入能明显增强基因组组装的连续性和完整度

小丑鱼基因组大小预估为791 Mb ~ 967 Mb,杂合度在0.6%,这些特性都是构建参考基因组过程中需要面临的困难。

基因组测序、组装、注释

利用Illumina和Nanopore杂合组装,测序深度分别为54×和11×,组装基因组大小为880Mb,经过BUSCO评估基因组完整度为96.3%(辐鳍鱼纲)。Scaffold N50从Illumina数据单独组装时的21kb提升到401kb(混合组装),并且增加了组装基因组16%的完整度。

Table 1. 小丑鱼基因组组装

与性别分化相关基因cyp19a1a的鉴定

在小丑鱼基因组中,对已有文献支持的性别分化相关基因cyp19a1a进行鉴定。将已发表的小丑鱼转录组数据(雌,雄)比对到本研究组装出小丑鱼基因组,发现小丑鱼的cyp19a1a 基因能被Nanopore数据连续覆盖。在混合组装中,该基因位于一个429Kb长的scaffold上;而在Illumina单独组装中,该基因零散地分布在3个短scaffolds上,未被完整组装出。这说明,Nanopore长读长数据的引入,有助于准确还原基因结构,利于基因注释

Figure 1.组装基因组的基因区域、涵盖该基因的组装scaffold、基因组测序reads、

  转录组测序reads,对性别分化相关基因cyp19a1a的覆盖/mapping 

本文发表了小丑鱼的第一个混合组装基因组,发现即便是低深度(11×)Nanoppore测序,都能显著提升基因组组装的连续度和完整性。

参考文献:

Tan, Mun Hua, et al. “Finding Nemo: Hybrid assembly with Oxford Nanopore and Illumina reads greatly improves the Clownfish (Amphiprion ocellaris) genome assembly.” GigaScience (2018).

研究全长转录组?建议先看看这几篇文献

基于二代高通量测序平台的RNA-Seq技术在过去几年中得到广泛应用,然而读长限制使其无法得到精确完整的转录本,极大地限制了人们对复杂转录本的深入研究。而基于三代长读长的Iso-Seq技术能测得转录本全长,精确识别各种可变剪切形式,完整重构转录本,为转录组研究奠定【以准确获得转录本结构为前提】的基础。

Fig.1[1]左图描述了可变剪切的几种形式;

右图示意三代长读长测序能准确识别该基因的2种可变剪接,而二代做不到

下面组学君为大家介绍两篇经典的全长转录组研究论文。什么叫经典?
经典就是前年的文章翻出来仍然能让人眼睛一亮。

经典文章聚焦

1高粱转录组

高粱适应环境的能力很强,是重要的抗非生物胁迫的模式研究体系。尽管目前已完成几种高粱品系的基因组测序,但是其转录组注释仍有待完善。研究者利用Iso-Seq 的TAPIS流程对数据进行评估和分析,结果表明PacBio Iso-Seq测序策略能够测通转录本全长,可鉴定全长的剪接异构体及其他形式的转录后调控事件(如APA),这不仅极大的丰富了高粱基因注释信息,也有助于其基因调控中研究,为转录组研究提供有力的研究工具,该成果于2016年6月发表于Nature communications[2]

Fig.2(a)使用Iso-Seq测序分析方法得到的AS数量与已发表的高粱基因组注释的AS数量比较;(b)含有Poly(A)位点个数对应的基因数

研究中发现了共计27,860个转录本,其中11,342(40.7%)是新发现的,7,065个基因(25.4%)是覆盖全长的。9,341个基因(69.9%)只有一种Isoform,约5,200个基因有两个或以上的Isoform,415个基因有5个或更多的Isoform。从Iso-Seq读取序列中,发现了10,053个可变剪接形式,注释了其中7,000个新的可变剪接形式,而其中仅有2,950个已注释(Fig. 2a)。在14,550个表达的基因中,11,013个基因中至少含有一个poly( A )位点,超过7,700个(50%)基因有两个或者更多的聚腺苷酸化位点(Fig. 2b),说明APA现象在高粱转录组中是广泛分布的。研究中还确定了超过2,100个未注释过的新基因以及数千个3’非翻译区不同的转录本,研究者认为大部分新基因为长链非编码转录本。

2 玉米转录组

玉米是全球总产量最高的农作物,也是研究植物转录组代谢通路的重要遗传模型。玉米基因组序列于2009年公布,后来陆续有研究者利用EST和RNA-Seq转录组数据对其基因注释进行了补充。然而由于RNA-Seq短读长的局限性使该方法无法获得全长转录本序列,限制了可变剪接形式的鉴定。

冷泉港实验室等单位利用三代测序技术的长读长优势,获得了玉米的全长转录组,在已有的玉米B73 RefGen_v3参考基因上发现了大量新信息,揭示了玉米基因表达的复杂性,该项研究成果于2016年发表在Nature communications[3]

Fig.3 Comparison of PacBio and RefGen_v3 Isoform

PacBio测序数据经处理得到643,330个高质量的转录本序列,其中606,145个序列(94.2%)能够比对到玉米RefGen_v3参考基因组上。经聚类分析得到了111,151个Isoform,对应26,943个基因,涵盖了玉米RefGen_v3中注释基因的70%。其中57% 的Isoform来自已知基因位点的新Isoform;2,803个(3%)新Isoform来自2,253个新的基因位点(Fig.3)。在PacBio Isoform中发现了来自53个家族的新Isoform,转录因子数量增至5,423个。其中155个新Isoform与生长激素应答的功能相关。此外,通过对PacBio数据的进一步挖掘,该研究还发现了867个新的LncRNA(平均读长1.1kb)。

文献读到这,你是否也不禁想,要不要我也把实验材料规整规整,做个转录组研究?稍等,有参考基因组的物种和无参物种,分析流程可是不一样的哦。

别担心,未来组不论是否有参,全长转录组项目经验都很丰富哦,以下为大家介绍2篇未来组项目经验论文,分别是有参异源四倍体棉花转录组和无参矮牵牛转录组。

1.未来组项目-有参异源四倍体棉花转录组分析

未来组参与的异源四倍体棉花全长转录组项目文章于2017年9月见刊New Phytologist[4],华中农业大学研究团队基于PacBio测序,并整合Iso-Seq流程开发适用于区分2套亚基因组转录本的分析方法,克服了短读长测序在解析多倍体Isoform的技术瓶颈,揭示了纤维特异性的可变剪接事件,2套亚基因组中部分同源基因的Isoform差异,并在Isoform水平上揭示了miRNA对可变剪接事件的调控,为研究多倍体物种可变剪接提供了新的研究角度。在异源四倍体棉花全长转录组分析中,针对四倍体物种开发了整合性Iso-Seq数据分析流程(https://github.com/Nextomics/pipeline-for-isoseq)(Fig.4)。

Fig.4异源四倍体棉花的Iso-Seq数据分析流程

研究者对多倍体棉花转录组进行分析,经mapping、phasing、clustering、consensus后总共得到44,968个基因,并从中定义了176,849个Isoform。其中全长Isoform平均2,175bp,比参考序列转录本平均1,462bp的长度长。

Fig.5(a)Iso-Seq数据及中检测的全长LncRNA与LncRNA_v1的Venn图;

(b)基因上polyA位点数目分布;(c)polyA剪切点(-50 ~ +50)的核苷酸相对频率

通过与参考序列比对,更新了18,008个基因,确定了222个融合基因,在新的转录本中确定了2,447个LncRNA,与LncRNA_V1比较,确定了365个新的LncRNA(Fig.5a)。在Iso-Seq中检测的44,968个基因中,基因上平均polyA位点数目为2.82(Fig.5b);同时分析了polyA位点侧翼核苷酸序列,其表现出核苷酸偏向性特征,在3’UTR的polyA剪切点的上游富含U碱基,在下游富含A碱基(Fig.5c),同时在polyA剪切点上游确定了2个保守的motifs(AAUAAA和UGUA)。

2.未来组项目-无参矮牵牛转录组分析

由华中农业大学园艺林学学院研究团队主导的,未来组参与的全长转录组分析项目文章,2017年3月发表于Scientific Reports[5]。研究通过结合全长转录组Iso-Seq和RNA-Seq两者优势,针对无参考基因组物种的转录组分析开发了HySeMaFi(hybrid sequencing and map finding)流程,该流程可对基因剪接形式进行挖掘,克服了RNA-Seq中不完善的Isoform重构形式,同时,也可定量Isoform表达,为后续研究提供准确的参考数据。

Fig.6 HySeMaFi 分析流程示意图

基于RNA-Seq和Iso-Seq两种测序策略,开发HySeMaFi分析方法,示意图见Fig.6。在RNA-Seq中,经不同组装方法拼装出所有理论上的Isoform形式(涵盖有真实的Isoform形式),同时在Iso-Seq中经过校正得到A、B两种Isoform。通过比对方法,建立RNA-Seq中 longest molecules(如图中 1)和PacBio corrected reads比对关系,用于后续下游分析,如得到的longest molecules和PacBio corrected reads可用于分析可变剪接形式,PacBio corrected reads可作为参考基因集做后续基因表达分析。

Fig. 7 经HySeMaFi方法全方位确定基因可变剪接形式

PacBio数据经聚类,80% Isoform聚类的cluster含有2个以内Isoform形式,同时也发现100个以上cluster含有50个Isoform形式(Fig.7a)。经HySeMaFi方法得到的转录本,如组装的longest molecules 和PacBio corrected reads,除了可能的外显子对应的基因Isoform外,至少有2,264基因有2个以上可变剪接形式(Fig. 7b)。为验证,以Miseq数据作为query,比对到Hiseq数据的longest Contigs,结果与基因分析中长读长作为数据集的结果一致(Fig.7c 和Fig.7d)。

通过结合RNA-Seq和Iso-Seq,开发的针对无参考基因组的HySeMaFi分析流程,在转录组分析中,可挖掘更多基因可变剪接形式及精确定量Isoform的表达。

基于长读长的转录组研究优势日益凸显,在对已知基因序列的补充注释,新的可变剪接形式分析、APA分析、融合基因和LncRNA的发现中发挥着越来越重要的作用。

未来组的全长转录组学研究,不仅包含PacBio SMRT技术,也已推出基于Nanopore的direct RNA测序技术,开启转录组学研究新纪元(技术详情请见Nature methods 文章关于direct RNA测序的测评解读),我们有丰富的全长转录组项目经验,针对特定项目,对分析流程进行优化,以期为不同领域的研究者提供更为完善的解决方案。

参考文献

[1] Park E, Pan Z, Zhang Z, et al. The Expanding Landscape of Alternative Splicing Variation in Human Populations[J]. The American Journal of Human Genetics, 2018, 102(1): 11-26.

[2] Abdel-Ghany S E, Hamilton M, Jacobi J L, et al. A survey of the sorghum transcriptome using single-molecule long reads[J]. Nature Communications, 2016, 7:11706.

[3] Olson A, Bo W, Ware D, et al. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing[J]. Nature Communications, 2016, 7:11708.

[4] Wang M, Wang P, Liang F, et al. A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulation[J]. New Phytologist, 2017, 217(1):163-178

[5] Ning G, Cheng X, Luo P, et al. Hybrid sequencing and map finding (HySeMaFi): optional strategies for extensively deciphering gene splicing and expression in organisms without reference genome[J]. Scientific Reports, 2017, 7:43793.

图片来源于网络|侵删

Nature methods丨基于Nanopore的direct RNA测序方法测评,你要不要来试试?

本周一,Nature Methods在线发表Oxford Nanopore direct RNA测序技术测评文章,结果表明,【不经反转、无须扩增的RNA直接测序】能获得全长的链特异性RNA,无测序偏好性,并同时记录碱基修饰,为后续研究基因结构和基因表达,提供新技术新方法。

direct RNA建库测序

提取样本RNA(该实验样本为酵母Saccharomyces cerevisiae),在建库时先后加上poly(T) 接头和测序接头,于Oxford Nanopore测序仪上机测序(该研究中试剂版本:R9.4,测序机型:MinION。未来组以更新款GridION X5机型搭建测序平台,通量更高、base calling更快)

 Fig.1 direct RNA测序的建库示意图

测序“raw data”展示

Fig.2 展示的是一段带接头序列的~1500-nt的转录本通过测序纳米孔时记录下的电流变化。可以看出测序的顺序是:接头序列→poly(A)→转录本主体。随后对电流变化进行算法识别,重构转录本序列。

当一条转录本完全经过后,纳米孔又重归开放状态,可以迎接下一条RNA的到来。

Fig.2 RNA分子经过纳米孔时记录下来的电流变化

对direct RNA测序进行测评

1. 与参考转录组数据比对

构建3个数据集:direct RNA在Nanopore测序;反转成cDNA用Nanopore测序;反转成cDNA用Illumina测序。

将测序reads比对到酵母参考转录组,比对情况如下:

2. 三个数据集之间两两比对

随后,对三个数据集对同一条转录本的reads支持情况进行了比较,结果显示相关度很高。

 Fig.3 支持每条转录本所对应的reads数量,两两间比对

   (n = 6,531 transcripts,每条转录本至少有一个数据集中的read支持)

3. 对参考基因组覆盖度的评估

将direct RNA 和 Illumina cDNA测序reads比对到参考基因组上,计算reads对基因的比对情况和覆盖度(Fig.4),direct RNA比对上的reads数量为2,045,748 (63.43%);Illumina RNA-seq reads比上的数量为708,592,030 (98.22%)。direct RNA 和 Illumina cDNA测序reads在对基因的覆盖方面,相关度很高(Spearman’s rho = 0.73,Fig.5)。

Fig.4 direct RNA和Illumina cDNA测序,比对到参考基因组的覆盖度

外圈:参考基因组;中圈:direct RNA;内圈:Illumina

Fig.5 direct RNA和Illumina cDNA测序,支持每个基因所对应的reads数相关性比较

n= 6,692 genes)

4. 对基因识别准确度的评估

该研究以酵母中的两个同工酶GAPDH基因为例,它们位于基因组不同的位置,编码同一个酶的不同形式,其编码序列有95.8%是完全相同的,仅有42个不同位点的碱基差异。基于以往二代测序是很难将短reads准确地mapping回参考基因组的。而在direct RNA测序中,该区域每条reads能覆盖这42个差异碱基中的大部分,即便有少量位点读取错误,也不影响将reads准确地mapping到对应的基因(Fig.6)。

Fig.6 direct RNA测序reads mapping到两个同工酶GAPDH基因的结果

5. 实验可重复性的评估

另外还对同一个样本构建了5个不同的文库分别上机测序,技术学重复结果相关性高(Spearman’s rho = 0.94–0.96;n= 6,713 transcripts),表明文库构建和上机测序实验重复性好。

6. 测序偏好性的评估

文章利用外源标准ERCC样品(The External RNA Control Consortium)评估预期和实际的测序读长及测序丰度,结果显示高度的一致性,Spearman’s rho = 0.93, P = 1.9 × 10−40, n = 92 ERCC transcripts(Fig.7a),说明direct RNA测序对转录本的长度没有偏好性。Fig.7b、c评估了对ERCC RNA的覆盖完整度,大部分reads对转录本的覆盖完整度都接近1.0,说明direct RNA测序大部分reads都是测的转录本全长。从Fig.7c还可以看出,direct RNA获得的是链特异性的RNA序列,这对进一步准确获得基因结构及基因表达信息有重要的意义。

Fig.7 测序外源标准ERCC RNA样品,评估direct RNA测序偏好性

7. 碱基修饰直接识别

Direct RNA测序能在读取RNA碱基序列的同时获得碱基修饰信息。Fig.8以两种常见的碱基修饰m6A和5-mc为例,展示了经过修饰的碱基与未经过修饰的碱基,在经过测序纳米孔时引起的电流变化有什么区别。

Fig.8 碱基修饰对电流变化趋势的影响示意图

(a) m6A; (b)5-mc

不经反转、无须扩增的RNA直接测序能获得全长的链特异性RNA,无测序偏好性,并同时记录碱基修饰,为后续研究基因结构和基因表达,提供新技术新方法。