昆虫之“最”和它们的基因组学研究

昆虫种类繁多,世界上已记录的昆虫有100多万种(其中有害昆虫八万余种),是目前最大的未被充分利用的宝贵资源。昆虫是动物界中最大的一个类群,在所有生物种类中占比超过50%,它们的踪迹几乎遍布世界的每一个角落。

有研究认为昆虫最早起源于距今~479 Mya的奥陶纪,现存的昆虫谱系大多起源于距今~345 Mya的密稳纪,而昆虫主要的多样性分化则出现在白垩纪时代[1]

对人类健康危害最大的昆虫——蚊

蚊子属于双翅目蚊科,世界上约有3000种。是一种具有刺吸式口器的纤小飞虫。通常雌蚊以血液作为食物,而雄蚊则吸食植物的汁液。吸血的雌蚊是登革热、疟疾、黄热病、丝虫病、日本脑炎等其他病原体的中间寄主。蚊子的分布极为广泛,除南极洲外各大洲皆有蚊子的分布。其中,以按蚊属、伊蚊属和库蚊属最为著名。

相关研究▕疟疾载体——达氏按蚊的基因组研究[2]

按蚊是最主要的疟疾传播载体,在美洲每年由按蚊引起的疟疾有数百万例。研究者对从Coari、AmazonasState和Brazil获得的野生按蚊进行培养,并对其F1代按蚊进行DNA测序,组装出了达氏按蚊基因组。

Fig.1 达氏按蚊与冈比亚按蚊、伊蚊、库蚊和果蝇属的进化关系

研究中共预测了10481个蛋白质编码基因,其中,72%的基因与冈比亚按蚊最接近,21%与其它蚊种相似性较高。尽管经过很长一段时间的不同的进化过程(Fig.1),但研究者还是在达氏按蚊和冈比亚按蚊之间发现了保守的基因共线性现象(Fig.2)。

Fig.2达氏按蚊、冈比亚按蚊和果蝇的基因结构比较

文章还发现了达氏按蚊中大量的SNP位点及转座元件,确定并讨论了直接参与载体-人类和载体-寄生虫之间相互作用的与吸血、免疫和杀虫剂抗性相关的基因。

对农业危害最大的昆虫——蝗虫

蝗虫属直翅目,全世界有超过10,000种,广泛分布于热带、温带的草地和沙漠地区。蝗虫主要包括飞蝗和土蝗。在我国飞蝗有东亚飞蝗、亚洲飞蝗和西藏飞蝗3种,其中东亚飞蝗在我国分布范围最广,危害最严重,是造成我国蝗灾的最主要飞蝗种类,主要危害禾本科植物。全世界常年发生蝗虫的面积达4,680万km2,全球1/8的人口经常受到蝗灾的袭扰。

相关研究▕ 基因组信息揭示蝗虫与飞行和植食性相关的基因家族扩张[3]

在目前已完成测序的昆虫基因组中,最大的为东亚飞蝗,别看它身材小巧,基因组却高达6.5Gb,是人类基因组的2倍。研究发现东亚飞蝗基因组中存在大量的重复序列(至少60%),且这些序列的丢失频率明显比其他昆虫少很多,这是造成其庞大基因组的主要原因。

Fig. 3 迁移飞行过程中与能量消耗有关的基因的扩张

研究者通过基因组比较分析发现东亚飞蝗基因家族的扩张与迁移飞行过程中的能量消耗及其化学感应和消毒机制有关,这些扩张有利于飞蝗长距离飞行及植食性。这项研究揭示了蝗虫长距离飞行能力和植食性的基因组基础。

此外,对东亚飞蝗的甲基化和转录组研究分析发现了在蝗虫变相过程中的复杂的分子调控机制。

最浪漫的昆虫——萤火虫

萤火虫属鞘翅目萤科,是一种小型甲虫。因其尾部能发出荧光,故名为萤火虫。全世界约2000种,分布于热带、亚热带和温带地区,我国较常见的有黑萤、姬红萤、窗胸萤等几种。

萤火虫可以利用荧光的闪烁节奏形成特定的闪光信号,主要用来吸引异性交尾,偶尔也起一定的警戒作用。这种行为与蟋蟀鸣叫,蝴蝶起舞等类似,都可归为求偶行为,因为场面过于浪漫,被人们赋予更多诗意。

相关研究▕ 比较基因组学研究揭示萤火虫荧光素酶基因的起源与进化[4]

为了揭示萤火虫荧光素酶基因的遗传基础及其起源、进化过程,Timothy R. Fallon等人用PacBio+Illumina+Hi-C多技术结合的策略组装出了高质量的北斗七星萤火虫(Photinus pyralis,Lampyrinae亚科)基因组,解决了其中与荧光素酶基因相关的串联重复序列。同时,研究者还对日本萤火虫(Aquatica lateralis,Luciolinae亚科)和发光磕头虫(Ignelater luminosus,叩甲科)进行Illlmina基因组测序并完成组装。通过对这三个荧光甲虫进行比较基因组学和转录组分析,对发光甲虫的发光和化学防御机制在近1亿年来的进化历程提出了新的见解。

Fig.4 萤火虫荧光素酶基因进化模型

通过基因组和转录组比较分析,研究者绘制了萤火虫荧光素酶基因进化模型(Fig.4):串联基因的复制产生了PACS的几个旁系同源基因,其中一个新功能化成为萤光素酶祖先基因(AncLuc)。AncLuc原位产生了Luc1,而Luc2则可能是在1亿年前AncLuc发生了远程基因复制事件形成的;随后发生基因重排从而产生了萤火虫的两个亚科——Lampyrinae亚科和Luciolinae亚科。

此外,研究者还利用RNA-Seq技术对三种发光甲虫不同性别、不同组织部位、不同发育时期的基因表达进行了解析,分析了在荧光素酶代谢过程中起关键作用的基因。

对遗传学研究贡献最大的昆虫——果蝇

果蝇广泛地存在于全球温带及热带气候区,目前发现有至少1000种,在人类的栖息地内如果园,菜市场等地区内皆可见其踪迹。

果蝇只有四对染色体,数量少而且形状有明显差别;果蝇性状变异很多,比如眼睛的颜色、翅膀的形状等性状都有多种变异,这些特点对遗传学研究也有很大好处,是很常用的遗传学研究材料。

相关研究▕ 低覆盖长读测序法快速组装果蝇参考基因组[5]

研究者使用黑腹果蝇D.melanogaster (ISO1)基因组DNA在OxfordNanopore MinION掌上测序仪上测序1个flowcell,以其中长度在1kb以上的reads(测序深度约30×)与二代数据结合进行混合组装,加上Bionano光学图谱数据辅助scaffolding,获得高准确度、高连续度和高完整度的黑腹果蝇基因组:Scafold N50 =21.3 Mb,BUSCO评估97.1%。

Table 1 基因组组装结果

通过与参考基因组进行比较,揭示了黑腹果蝇中的大量结构变异,包括与发育、行为、代谢基因相关的novel LTR 转座元件的插入和复制等,这些结构变异有助于研究后生动物基因组进化。

最顽强的昆虫——蟑螂

蟑螂是属于蜚蠊目的昆虫,世界上约有6000种,主要分布在热带和亚热带地区。少数蟑螂会入侵人类家居,大部分则是生活在野外。家居最常见的蟑螂,大的有美洲蟑螂、澳洲蟑螂及短翅的斑蠊,身长约5.0cm;小的有德国蟑螂、日本姬蠊及亚洲蟑螂,体长约1.5cm,热带地区的蟑螂一般体型比较巨大。

相关研究▕美洲蟑螂基因组——揭示环境适应性的遗传学基础[6]

美洲大蠊是一种杂食性食腐动物。它生长速度快、繁殖能力强,而且具有组织再生能力,因而能够在城市环境中生存。美洲大蠊的摄食范围特别广,这也是它们适应多种食物来源的基础。美洲大蠊能通过一个非常复杂的解毒酶系统解毒,而这正是它们能抵抗各种化学毒素和病原体的主要原因。

中科院植物生理生态研究所詹帅研究组与合作者对美洲大蠊进行了基因组测序, 并在基因组水平分析蟑螂的环境适应性的遗传学基础。

Fig.5 美洲大蠊和其他蜚蠊中参与化学接收和解毒的基因家族

研究者将目光聚焦在美洲大蠊与环境适应性相关的基因家族的分析上,并分析与化学吸收、解毒和免疫有关的信号通路。研究发现美洲大蠊中与化学感受和解毒相关的基因家族都发生了大规模扩张,这大大增加了其对城市环境的适应性(Fig.5)。

此外,研究人员还鉴定出了参与发育和再生的信号传导路径。美洲大蠊有望作为开展蟑螂的生物学研究的模式系统。同时,这项研究也能为美洲大蠊的防治提供一些思路。

昆虫家族如此庞大,其中之“最”远远不只于此,以上列举的仅仅是沧海一粟,更多的昆虫故事可以查阅相关文献资料,以下是近年发表的昆虫基因组文献

已发表昆虫基因组文献汇总表

参考文献:

[1] MisofB, Liu S, Meusemann K, et al. Phylogenomics resolves the timing and pattern ofinsect evolution.[J]. Science, 2014, 346(6210):763-767.

[2] Marinotti O, Cerqueira G C, Almeida L G P D,et al. The Genome of Anopheles darlingi,the main neotropical malaria vector[J]. Nucleic Acids Research, 2013,41(15):7387-400.

[3] Wang X, Fang X, Yang P, et al. The locustgenome provides insight into swarm formation and long-distance flight.[J].Nature Communications, 2014, 5(5):2957.

[4] Fallon T R, Lower SE, Chang C H, et al.Firefly genomes illuminate the origin and evolution of bioluminescence[J].bioRxiv, 2017: 237586.

[5] Solares E A, Chakraborty M, Miller D E, etal. Rapid low-cost assembly of the Drosophila melanogaster reference genomeusing low-coverage, long-read sequencing[J]. bioRxiv, 2018: 267401.

[6] Li S, Zhu S, Jia Q, et al. The genomic andfunctional landscapes of developmental plasticity in the American cockroach[J].Nature communications, 2018, 9(1): 1008.

图片来源于网络|侵删

利用PacBio三代测序技术获得模式植物拟南芥的全基因组6mA修饰图谱

未来组项目经验

2018年4月,未来组携手中国农业科学院生物技术研究所谷晓峰研究组和新加坡国立大学生物系及淡马锡生命科学研究所俞皓研究组合作在Developmental Cell杂志发表了题为“DNA N6-Adenine Methylation in Arabidopsis thaliana”的研究论文,利用PacBio三代测序技术获得模式植物拟南芥的全基因组6mA修饰图谱,解析其分布模式和潜在功能。

研究概述

研究人员首先使用Dot blot方法检测了在拟南芥不同组织和不同发育时期的6mA修饰水平,后续选择D9和D21的样本进行三代PacBio SMRT全基因组测序,比较两个时期拟南芥6mA修饰的分布模型和动态变化,并结合转录组信息更深入地研究6mA潜在功能。

Highlights

  • 6mA修饰在拟南芥基因组内广泛存在
  • 与基因间区相比,6mA在 gene body区更丰富
  • 在拟南芥发育过程中,6mA修饰是动态的
  • 6mA与拟南芥中活跃表达的基因相关联

 

研究结果

6mA修饰在拟南芥基因组内广泛存在

研究人员首先使用Dot blot方法检测了在拟南芥不同组织和不同发育时期的6mA修饰水平,发现在这些样本中都广泛存在不同程度的6mA,其水平随着个体发育的进程逐渐增加,在D21出现了急剧上升。

Fig.1Dot blot方法检测拟南芥不同组织和不同发育时期的6mA修饰水平

使用PacBio SMRT测序获得拟南芥全基因组6mA图谱

Fig.2 链特异性的6mA修饰信息

以D9样本示例,PacBio SMRT测序深度经计算为103×,高于PB官方推荐的测全基因组甲基化的要求100×。通过测序时两个脉冲荧光信号之间的间隔时间评估该位点的甲基化程度(Fig.2),最终获得了链特异性的D9全基因组6mA信息(Fig.3A)。实验结果表明,在包含线粒体、叶绿体和核基因组中所有的29,811个腺嘌呤中,发生6mA碱基修饰的比例为0.04%,与LC-MS/MS实验中评估的0.048%吻合,并且发现在越靠近着丝粒区域表现出越高的6mA丰度和轻微降低的平均甲基化水平(Fig.4)。

Fig.3D9 (A)和D21 (B) 拟南芥全基因组6mA图谱

Fig.4 6mA丰度和水平在染色体臂上的分布情况

6mA分布模式解析

通过评估6mA在基因组内不同的区域(Exon、Intron、5’UTR、3’UTR区,Fig.5A)和位处基因的不同类型(Protein coding、miRNA、snoRNA等,Fig.5 B、C)分析6mA的分布模型得知:与基因间区相比,6mA gene body区更丰富(Table 1)。

Fig.5 6mA分布模式解析(D9)

在拟南芥发育过程中,6mA修饰是动态的

通过比较D9和D21拟南芥全基因组6mA分布图谱(Fig.3)、overlap关系(Fig.6)、分布模式的区别(Fig.5、7),可以得知在拟南芥发育过程中,6mA修饰是动态变化的,在位点、程度上都有明显的区别。

Fig.6 D9和D21拟南芥基因组中6mA分布比较韦恩图

Fig.7 6mA分布模式解析(D21)

Fig.8示例了2个基因在D9和D21两个发育阶段不同的6mA修饰位点。D21比D9拥有更多的6mA修饰位点。也支持了在拟南芥发育过程中,6mA修饰是动态变化的。

Fig.8 2个基因在D9和D21两个发育阶段不同的6mA修饰位点示例

6mA与拟南芥中活跃表达的基因相关联

通过将6mA修饰位点及程度与来自RNA-seq的基因表达信息结合分析,结果表明6mA与拟南芥中活跃表达的基因相关联。

高表达基因的TSS上下游2.5kb区域内有更多的6mA修饰位点(Fig.9 A、B),高表达的基因有更多的6mA修饰位点(Fig.9 C、D),被6mA修饰的基因比未修饰的基因表达水平显著增高(Fig.9 E、F),并且靠近TSS时,差异更明显。

Fig.9 6mA修饰与RNA数据关联分析

这篇论文是国内发表的首篇基于PacBio单分子测序技术进行真核生物6mA修饰分析的研究成果,揭示了拟南芥中6mA修饰的发生规律,并为研究陆生植物碱基修饰的分布模式和潜在功能提供基础。武汉未来组凭借丰富的三代测序项目经验在为该项目提供PacBio测序服务并参与分析。

其它真核生物6mA研究高分文章(三代测序直读):

线虫

6mA甲基化对跨代遗传的影响

Greer, E.L. et al. DNA methylation on N6-adenine in C. elegans. Cell 161, 868–878 (2015).

小鼠

6mA在哺乳动物中可影响基因沉默

Wu, T.P. et al. DNA methylation on N(6)-adenine in mammalian embryonic stem cells. Nature 532, 329–333 (2016).

真菌

从多种真菌三代基因组测序数据中挖掘甲基化信息

Mondo, S.J. et al. Widespread adenine N6-methylation of active genes in fungi. Nature Genetics (2017).

延伸阅读

NanoMod 发布,适配于纳米孔测序数据的碱基修饰检测工具

参考文献

Liang et al., DNA N6-Adenine Methylationin Arabidopsis thaliana, Developmental Cell (2018)

图片来源于网络|侵删

Nanopore混测1cell,一次性解决12个细菌完成图,送质粒

从三代PacBio长读长测序应用全面市场化后,在基因组学领域从量变突破到质变的一个应用,非细菌基因组完成图莫属。随着平台机型从RS→RSⅡ→Sequel的更新换代以及试剂版本的升级,使得测序数据的读长和通量不断上升,让细菌完成图产品不断成熟完善,价格也早已跌破万元,奠定了PacBio在单菌基因组完成图领域的不二选择。

如果想要一次性测很多个菌怎么办?

2017年9月在 Microbial Genomics 发表的一篇将纳米孔测序技术(Oxford Nanopore)应用到细菌混测的实例中,解决了之前基于二代Illumina测细菌基因组结果中充斥着gaps、N碱基,成不了完成图的问题。

该研究在一个flowcell中混测了12个不同种的克雷伯氏肺炎菌,与前期二代数据混合组装,既保证完整性,又保证base准确性,最终将它们都组装成了完成图,并且有7个样本组装出了所有的质粒(其它5个样本组装出部分质粒)。

该研究中价格比较:

Illumina:80 USD /sample

ONT:950 USD/ 12 Samples

实验流程

1.DNA 提取

2.12个样本分别加barcode(native barcoding expansion kit (EXP-NBD103))

3.12个样本等量混合

4.加测序接头,按照1D模式建库(1D ligation sequencing kit (SQK-LSK108))

5.Nanopore MinION上机1个flowcell(R9.4)

实验结果

>>>>数据评估

base calling后,共产出10.48 Gb ONT 数据,经过拆分barcode后,获得6.87 Gb数据用于组装,拆分率约为65.5%。

去掉接头和barcode序列后,reads N50为22.9Kb,长读长测序有助于提高组装的连续性。

测序数据在12个菌种间分布并不算均匀,覆盖深度从16×到308×(Fig.1),可能是因为混测个数过多以及barcode拆分效率等导致。

>>>>组装评估

使用Unicycler对ONT数据和Illumina数据进行混合组装,将12个样本都组装成完成图,并且其中7个样本中所有的质粒同时被组装完整。

Figure Illumina单独组装和ONT、Illumina混合组装12个克雷伯氏菌圈图及质粒对比

本方法1个ONT flowcell混了12个细菌,结合二代数据混合组装,全部获得基因组完成图,经济适用并高效。

这种加barcode混测的策略,只能针对可分离培养的菌种。

参考文献

WICK, Ryan R., et al. Completing bacterial genome assemblies with multiplex MinION sequencing. Microbial genomics, 2017,3.10.

图片来源于网络|侵删

NBT丨Y染色体着丝粒序列解析完成的一小步,人类基因组完成图历史上的一大步

随着测序技术的进步,数十年来人类基因组的研究得到了长足的发展,耗费的人力物力不断下降,组装的连续性和完整度不断提升,但仍有不少区域未得到充分解析,例如着丝粒、端粒等串联重复序列,这些区域往往被认为与细胞分裂、细胞周期、疾病等密切相关。

2018年3月,Nature Biotechnology 在线发表了一篇通过对BAC文库进行纳米孔(Oxford Nanopore)长读长测序,绘制人类Y染色体着丝粒区域线性DNA序列的方法学文章,解析了该区域长达数百kb的串联重复,不仅有助于了解着丝粒的进化和功能,更是为通过单分子测序的方法实现人类基因组完成图提供一种新思路。

具体实施步骤

1.建库测序

对目标区域(人Y染色体着丝粒DYZ3区)的环形BAC (https://bacpacresources.org/)使用转座子酶进行1次打断,形成线性DNA后加上测序接头,在Oxford Nanopore MiniION平台进行全长BAC DNA测序(R9.4,RAD002)。

Fig.1基于Nanopore的全长BAC DNA建库测序示意图

2.数据产出

每个BAC run产出数据读长分布见Fig.2, 从10个BAC文库(8个目标位点,2个对照)中,获得了>3500条全长1D reads。每个BAC产出的总数据量、全长比例和一致性序列长度见Table 1。

Fig.2 10个BAC 产出数据读长分布

  1. consensuspolishing和定位、定向

通过评估对照组的数据得知原始1D数据单碱基准确度为84.8%。经过一步consensus和polishing后得到高准确度的一致性序列(Fig.3 B、C),将全长reads比对到每个BAC的consensus reads,对照组准确度为99.2%,其它BAC为99.4–99.8%。

Fig.3数据一致性比对、polishing以及序列变异检测策略

在前一步提高序列准确度后,使用Illumina MiSeq对BAC进行了resequencing,实施了2种变异检测:(1)K-mer method和(2)Alignment metod (Fig.3 D),通过变异检测结果帮助对BAC序列进行定位和排序,例如Fig.3 D右侧圈图以209 kb 长的RP11-718M18示例,使用8个BAC-polished序列,按照从p-arm到q-arm的顺序拼接完整的该区段的序列。

4.组装结果

从8个BAC的Nanopore测序数据中,组装出了完整的人类Y染色体着丝粒区域:365Kb的α-卫星DNA序列。它包含着一段由5.8Kb的序列串联重复而形成的长达301Kb的特殊序列(Fig.4),包含52个higher order repeats(HOR),其中有7段6.0Kb长的HOR结构变异(Fig.4 紫色)。能通过4种常见的单核苷酸多样性而划分形成的9种单体型(Fig.5)。至此,人类Y染色体着丝粒区域DNA序列得到完整解析。

Fig.4 基于Nanopore的全长BAC DNA测序,构建人类Y染色体着丝粒DYZ3区

Fig.5CENY haplotype groupings

5.进一步研究着丝粒的进化和功能

研究人员后续对人类和其它一些类人猿种类的Y染色体着丝粒区域进行了荧光原位杂交(FISH)比对分析(Fig.6)、组蛋白表观修饰分析(Fig.7)等,以期更深入研究着丝粒的进化和功能。

Fig.6The Y centromere location is not shared among the great apes.

Fig.7Epigenetic characterization of the Y Centromere

研究人员在这篇论文中实现了利用BAC+Nanopore测序的方法获得完整的人类Y染色体着丝粒DNA序列(串联重复卫星DNA),比以往的研究更完整、更精细,对序列的顺序好和方向有了更准确的判断,为进一步研究着丝粒的进化和功能以及实现人类基因组完成图提供一种新思路,这也是Nanopore多变应用策略的一个体现。

参考文献

[1]Jain M, Olsen H E, Turner D J, et al. Linear assembly of a human centromere on the Y chromosome[J]. Nature biotechnology, 2018.

延伸阅读

里程碑丨Nanopore测序组装人类基因组终见刊NBT

新技术结合多组学,初迈基因组完成图新时代

Nanopore测序揭露线虫基因组中复杂串联重复序列

未来组–中国首家通过Nanopore官方测序服务认证

Nature methods丨基于Nanopore的direct RNA测序方法

NanoMod 发布,适配于纳米孔测序数据的碱基修饰检测工具

DNA碱基修饰在DNA复制起始、错配修复、细菌中寄主控制的修饰与限制以及转座子的失活等过程中对维持遗传信息的稳定性发挥着重要的作用。目前检测DNA甲基化的常规方法是亚硫酸氢盐测序法等,近年来三代单分子测序技术的发展也让通过测序实时读取DNA碱基修饰信息成为可能(PacBio 通过荧光信号出现的间隔时间识别[1],Nanopore通过特征性电流变化识别[2])。

从Nanopore数据中识别碱基修饰,难度比PacBio大,对算法拟合的精确度要求更高。为了提高碱基修饰信息识别的准确度,未来组首席科学家王凯老师课题组开发了一种新的计算工具——NanoMod,关于NanoMod的测评分析文章已经预印(bioRxiv,2018)[3]。以下是文章内容简单介绍。

Fig.1 NanoMod工作流程图

研究中使用NanoMod软件处理两组有碱基修饰和无碱基修饰的DNA样本的原始信号数据(Nanopore raw data),提取信号强度,基于参考序列执行碱基校正(Fig. 2),然后通过对比两个样本的原始信号分布鉴定修饰碱基(“邻域效应”)。

Fig.2基于NanoMod的缺失错误校正(A);基于NanoMod的插入错误校正(B)

研究者在基于不同的碱基修饰类型和不同程度的邻域效应的模拟数据集上评估NanoMod,发现NanoMod在识别已知碱基修饰方面优于其他方法。此外,研究者还展示了NanoMod在E.coli数据集中鉴定5-mC(5-甲基胞嘧啶)的优越性能(Fig. 3)。

Fig.3 使用NanoMod对E.coli进行DNA修饰分析
(DS1代表非甲基化样本,DS2代表甲基化样本)

相比于现存的一些基于Nanopore测序数据的DNA修饰检测工具,NanoMod的优势在于不需要大量的training data和后续的补偿算法即可完成对DNA修饰的检出,真正实现对DNA修饰的de novo检测。

总之,NanoMod是一种可用Nanopore测序的原始信号实现以单碱基分辨率检测DNA修饰的灵活工具,这将大大促进基于核苷酸修饰的大规模功能基因组学研究的发展,同时也体现了Nanopore测序技术在功能基因组学研究中的应用价值。

未来组自2017年9月开始逐步搭建Nanopore测序平台,并于2018年1月17日通过Oxford Nanopore Technologies Limited(牛津纳米孔技术有限公司,ONT)官方认证,获得Nanopore官方资格认证的测序服务供应商。我们拥有丰富的基因组学测序项目经验,针对特定项目,对分析流程进行优化,以期为不同领域的研究者提供更为完善的解决方案。

参考文献

[1] Flusberg B A, Webster D R, Lee J H, et al. Direct detection of DNA methylation during single-molecule, real-time sequencing[J]. Nature methods, 2010, 7(6): 461. 

[2]Schatz M C. Nanopore sequencing meets epigenetics[J]. Nature methods, 2017, 14(4): 347.

[3]Liu Q, Georgieva D C, Egli D, et al. NanoMod: acomputational tool to detect DNA modifications using Nanopore long-read sequencing data[J]. bioRxiv, 2018: 277178.

图片来源于网络|侵删

Oxford Nanopore + Hi-C:高质量墨兰参考基因组(4.25G,杂合度~1.5%,重复序列高达89%)

3月23日上午,在第28届中国(翁源)兰花博览会开幕式上,“墨兰基因组与国兰形态的进化”科研成果向公众隆重发布。中国兰花协会副秘书长张引潮,翁源县县长陈来安,广东省农业科学院环境园艺研究所所长朱根发,深圳市兰科植物保护研究中心主任刘仲健,台湾成功大学蔡文杰博士出席了发布会。

IMG_256

Cymbidium sinense

墨兰(Cymbidium sinense)染色体数目为2N=2X=40,基因组大小为4.25G,杂合度约1.5%,属于高杂合复杂基因组。墨兰基因组重复序列高达89%,使得墨兰比目前所有已测序的兰科植物基因组都大[1],如此庞大和复杂的基因组,让绘制墨兰基因组图谱困难重重。

2017年1月,广东省农科院环境园艺研究所、深圳市兰科植物保护研究中心、华南师范大学等单位联合组成攻关团队,启动了广东省自然科学基金研究团队项目“墨兰花分化与发育的分子调控机理研究”,开展了“墨兰基因组项目”。终于在2018年初,共同完成墨兰基因组测序项目武汉未来组凭借自有的Oxford Nanopore技术平台和丰富的三代基因组组装经验,为该项目提供了技术支持,最终组装结果:Oxford Nanopore+Hi-C:Contig N50=200K,Scaffold N50=159M。预测的蛋白编码基因数量29895个。其组装结果明显优于2017年在《Nature》杂志上发表的深圳拟兰基因组(Apostasia shenzhenica,Genome Size=349 Mb,Contig N50=80.1kb,Scaffold N50=3.029M)[2]。

IMG_257

墨兰(Cymbidium sinense)

IMG_258

深圳拟兰(Apostasia shenzhenica)

兰科(Orchidaceae)是植物界种类最丰富的家族之一,约有3万种,占全世界有花植物种类的10%。兰科植物进化程度高,是生物多样性研究和进化研究的理想植物,具有极高的科研、生态、观赏、文化和药用价值。兰科约有700属20000种,多产于全球热带地区和亚热带地区,少数种类也见于温带地区。兰花是中国十大名花之一,中国有171属1247种以及许多亚种、变种和变型。其中,墨兰又称“报岁兰”,是中国兰花中一个较为庞大的家族,是国兰中最具观赏价值的物种,同时也是最具广东特色的花卉种类之一。

IMG_259

IMG_260

本月23日在中国(翁源)兰花博览会上公布了墨兰基因组图谱,通过应用多种技术手段,包括Oxford Nanopore测序技术和染色体构象捕获技术(Hi-C),将基因组组装达到染色体水平。研究还发现,墨兰与所有其它兰花仅共享了一次全基因组复制(WGD)事件,于3600万年前分化而来。墨兰基因组重复序列含量为89%,这正是造成墨兰基因组比目前所有已测序的兰科植物都大的主要原因。

IMG_261

部分兰科植物进化树,Ntaure 2017 [2]

高质量的参考基因组为进一步的深入挖掘提供基础,结合最前沿的RNA测序技术、蛋白组测序技术、miRNA检测以及基因功能验证,蛋白相互作用分析等分子生物学手段,可以找出国兰进化中经历的关键事件,从而解析国兰形态的进化历程,解码国兰形态多变的奥秘。通过对数据分析挖掘,进一步研究植株建成基因(如叶形态相关基因CPC、花形态相关基因MADS-box等),花形态建成相关分子机制、花色调控相关代谢通路等。

科研人员将充分利用广东特色墨兰的资源优势,开展以全基因组测序为基础的兰花重要性状的功能基因研究,开展以FT基因为核心的成花诱导调控和以MADS-box基因为核心的花器官分化与发育分子机制、兰花分子标记辅助育种、分子设计育种、开花调控以及花型发育模型等前瞻性研究,并利用大数据组学分析手段整合生物学功能研究,突破一批关键技术难点,从基因组到形态对墨兰的“国兰艺术”全部要素(含线艺、叶艺、花色、花香、花型等)进行分子解码,建立了墨兰重要性状的分子调控网络模型,揭示了国兰观赏性状的分子调控机制,为国兰的园艺性状改良、分子育种和基因编辑提供切实可行的理论指导。

墨兰基因组的高水平组装得益于多种高效技术手段的结合——Nanopore 长读长测序技术理论上DNA序列有多长就能测多长,在高杂合的含大量重复序列的墨兰基因组组装中发挥极大的作用;同时,染色体构象捕获技术(Hi-C)的加入实现了对墨兰基因组的染色体级别组装。兰花全基因组序列将为兰花遗传工程育种研究提供重要资源和基础,对于促进兰科植物保护、药用资源开发和品种创新等具有重大意义。

多重技术手段的结合为复杂基因组的组装开辟了新的路径,使得更高水平、更高精度的基因组学研究得以实现。武汉未来组是国内获得Oxford Nanopore官方认证的测序服务供应商,拥有PacBio Sequel和Bionano平台,并提供Hi-C辅助基因组组装,同时配备经验丰富的实验团队和生信分析团队,竭诚为您打造优质的基因组学研究服务。

参考链接和文献

[1] https://view.inews.qq.com/a/20180323A1G70P00

[2]Zhang, G.-Q. et al. The Apostasiagenome and the evolution of orchids. Nature 549, 379 (2017)

论染色体级别参考基因组哪家强?三代长读长测序来帮忙!

橙色小丑鱼(Amphiprion percula)是海葵鱼科的一种,隶属于绒头鱼科(大鳞鱼),与海葵有着共生的关系,是研究珊瑚礁鱼类生态和进化的最重要的物种之一,也被用作研究社会组织模式和过程的模型物种。2018年3月在bioRxiv预印了一篇借助PacBio+Hi-C对橙色小丑鱼进行染色体级别参考基因组装的文章[1],研究结果显示,橙色小丑鱼是目前最连续、最完整的鱼类参考基因组之一,优于2018年已发表2个的二三代混合组装的小丑鱼基因组[2-3],也是第一篇利用Falcon_Unzip获得的单体型水平的鱼类基因组。

Table1.三个已发表的的小丑鱼基因组测序策略和组装指标比较

这三篇论文应用了不同的组装策略,通过比较得知:

  • 三代长读长数据(PacBio/Nanopore)的引入有助于提高基因组组装的连续性
  • >100×纯三代组装能将Contig N50提升到Mb级别,与二代或者二三代混合组装相比,提升效果>10倍。
  • 如果同时辅以Hi-C技术,更能将Contigs聚类到染色体群,并可以对Scaffolds进行定向。

橙色小丑鱼文章亮点

1.chromosome-scale和haplotype level的组装

研究人员对橙色小丑鱼进行了121×的PacBio测序,对过滤后的数据进行多版本组装,挑选其中质量最佳的版本A7进行后续分析(基于组装基因组大小、contig N50、BUSCO评估等多指标综合考虑选择)。随后使用FALCON_Unzip解决单体型级别的组装和phasing;使用Quiver提高组装准确度;结合来自于大脑组织的Hi-C数据,将contigs聚类到染色体;使用PBJelly尽可能地填补gaps;最终得到chromosome-scale、haplotypelevel、phased的橙色小丑鱼参考基因组(Nemo v1)。

2.目前最连续、最完整的鱼类参考基因组之一

比较橙色小丑鱼和已有的26个染色体级别鱼类参考基因组的组装连续性(Contig N50比较,Fig.1)和完整度(BUSCO评估,Fig.2),本研究中的橙色小丑鱼是目前最连续、最完整的鱼类参考基因组之一。

染色体级别鱼类参考基因组文献汇总及下载方法请见文末。

Fig.1 27个染色体级别鱼类参考基因组的组装连续性比较

从研究结果中可知,三个contig N50>1Mb的参考基因组,都是基于三代长读长测序获得:

Nile tilapia (3.09 Mb,Canu),

orange clownfish (1.86 Mb,Falcon)

Asianseabass (1.19 Mb, HGAP)

Fig. 2 27个染色体级别鱼类参考基因组的组装完整度比较

3.橙色小丑鱼特有基因鉴定

通过比较橙色小丑鱼、剑尾鱼、罗非鱼、斑马鱼和尖吻鲈五种鱼类的直系同源基因家族,查找橙色小丑鱼所特有的基因。研究发现,这五个鱼类物种的蛋白质序列间具有很高的相似度,绝大多数(89%)的序列能被归集到19,838个直系同源群中,其中14,783个直系同源群(75%)是五个鱼类物种所共有的,推测这些共有基因对应的蛋白质基本上都属于硬骨鱼类的核心基因集群。通过单拷贝直系同源基因构建的进化关系(Fig.3B)与以往的研究一致。

鉴定了橙色小丑鱼特有4,429个序列,其中49%具有功能注释(Fig.3A),未来进一步研究将以这些特有unique基因对橙色小丑鱼的表型性状的影响为关注点。

Fig. 3 (A)五个鱼类直系同源基因家族的overlap关系

(B)五个鱼类系统发生关系

nOG:直系同源基因群数量   nSOG:特有的直系同源基因群数量

4.小丑鱼基因组data base

研究人员还搭建了Nemo小丑鱼基因组data base,提供全球化的小丑鱼组学数据开放共享平台,数据库链接:http://nemogenome.org

该论文使用PacBio +Hi-C 的方法获得染色体级别的参考基因组,通过与已发表的染色体级别鱼类参考基因组做比较,证明自身组装的连续性和完整度都名列前茅,鉴定目标物种所特有的基因以为后续研究提供候选,为进一步研究基因和表型之前的关系打下基础。

未来组在三代测序基因组学领域项目经验丰富,竭诚为合作伙伴打造高质量的参考基因组。

附:论文中提到的27种染色体级别的鱼类参考基因组  组装策略及指标汇总表

参考文献

[1] Lehmann, Robert, et al.”Finding Nemo’s Genes: A chromosome-scale reference assembly of the genomeof the orange clownfish Amphiprion percula.” bioRxiv (2018): 278267.

[2] Tan, Mun Hua, et al.”Finding Nemo: Hybrid assembly with Oxford Nanopore and Illumina readsgreatly improves the Clownfish (Amphiprion ocellaris) genome assembly.”GigaScience (2018).

[3] Marcionetti, Anna, et al.”First draft genome of an iconic clownfish species (Amphiprionfrenatus).” Molecular ecology resources (2018).

图片来源于网络|侵删

Iso-Seq辅助揭秘紅葡萄之王 ——卡本內苏维浓的独特之处

卡本内苏维浓又名赤霞珠,是最为人熟知、原生于法国的酿酒葡萄品种,世界范围内分布广泛。早前的DNA分析认为卡本内苏维浓是黑葡萄卡本内弗朗(Cabernet Franc)和白葡萄品种白苏维浓(Sauvignon Blanc)二者的后代,果粒小、果皮厚、出汁量少,含有极高浓度的酚类物质和单宁,使得卡本内苏维浓葡萄酒拥有深邃神秘的酒色和涩感。
阅读更多

PacBio 终于•也•升级了!软件、试剂双双升级,更高通量、更长读长!

PacBio公司在3月7日正式公开发布升级版PacBio Sequel软件(V5.1版本)和Polymerase试剂,Sequel平台测序通量和读长均得到极大提升。这一可喜的进步使得PacBio SMRT测序在de novo组装、结构变异检测、靶向测序以及RNA Iso-Seq测序等方面的应用更具优势。

阅读更多

三篇全长转录组Iso-seq应用案例解析:动物、植物、微生物全覆盖

转录组学研究可以在整体水平上研究细胞中所有基因的表达调控规律,在分子水平上反映个体的生理生化过程。二代测序技术的应用使得人们得以初探转录组,但由于其短读长的技术限制,始终无法准确获得完整转录本。而三代长读长测序技术PacBio SMRT以其平均15~20kb的长读长优势,可以轻松覆盖转录本全长,使得人们终于可以窥得转录本全貌,为人们获取个体全长转录本并进行差异化分析、了解生命内在规律提供了新的解决方案。以下组学君为您带来三篇全长转录组Iso-seq应用案例解析,看看能不能为您带来新思路。

案例一

构建空心莲子草叶甲全长转录本集合[1]

TitleSMRT sequencing of full-length transcriptome of flea beetle Agasicles hygrophila

JournalScience Reports(February 2018)

IF:4.259

空心莲子草是原产于南美的苋科植物,在十九世纪30年代进入中国并迅速成为入侵物种,对当地的生态系统造成了破坏。空心莲子草叶甲是空心莲子草的专性天敌,作为生物防治手段而被引入。研究者对其进行了全长转录组研究,获得较完整的转录本集合,为了进一步揭示空心莲子草叶甲与宿主植物和生态系统之间的互作关系打下基础

材料与方法

物种:空心莲子草叶甲(Agasicles hygrophila)

取样:分别提取四个生长阶段(卵、幼虫、蛹、成虫)的RNA后混合测序

测序策略:PacBio SMRT

结果分析

文章应用部分篇幅阐述了PacBio SMRT Iso-Seq与RNA-Seq相比的长读长优势(Table 1):通过Illumina测序获得的reads读长有70%分布在200-300bp,而PacBio SMRT则有超过69%的reads读长超过1kb。Iso-Seq共产生9.4Gb clean数据,158,085条FLNC reads。完整地读取转录本的全长,有助于更精准地进行转录本重构和基因注释。

Table 1 PacBio SMRT与Illumina测序结果比较

文章基于PacBio SMRT数据,做了进一步的全长转录组标准分析,重构了28,982 条转录本,预测了145个可变剪接事件;27,318条简单重复序列;经TransDecoder鉴定获得24,040个ORF,其中有16,205个完整的ORF;预测得到4,198个lncRNA。同时,研究者还用多个数据库对空心莲子草叶甲基因进行了注释。

该研究利用长读长测序手段首次完成对空心莲子草叶甲的转录本研究,4分SCI妥妥到手,同时也为后续进一步研究昆虫与宿主植物和生态系统之间的互作关系提供了很有价值的参考信息。

案例二

比较转录组学:自然选择的摩擦草属VS人工选择的玉米[2]

TitleParallels between artificial selection in temperate maize and natural selection in the cold-adapted crop-wild relativeTripsacum

JournalbioRxiv(September2017)

摩擦草属、玉米和墨西哥类蜀黍的亲缘关系很近,但摩擦草属对寒冷气候适应性更强。研究者利用三代Iso-seq获得摩擦草全长转录组,结合已发表的玉米参考基因组和蜀黍植物基因组数据,进行个性化比较分析,以期在不断变化的气候条件下,为人工培育农作物提供思路。

材料与方法

物种:摩擦草(Tripsacum)

取样:提取野生摩擦禾种子发芽生长的单一植株的根、叶和茎RNA后混样测序

测序策略:PacBio RSII

结果分析

选取摩擦草属和玉蜀黎属为目标物种,高粱属、狗尾草属、复活草属为背景物种,稻属、短柄草属为外参物种,构建系统进化树。发现摩擦草属和玉蜀黎属中的6,950个直系同源基因在七种草类物种共有,包括4,162个一对一,1,436个一对二和1,352个二对二直系同源基因集,说明玉米和摩擦禾可能拥有相同的全基因组复制情况,二者的亲缘关系很近。

Fig.1 系统进化树

利用PacBio Iso-seq测序技术获得摩擦草的全长转录组与玉米参考基因组(RefGen v3)进行比较分析,发现玉米转录组中包含更多的可变剪切事件,且在玉米和摩擦禾的直系同源基因中发现有超过2/3(656, 61.6%)的保守基因发生可变剪切,而409个基因是玉蜀黍属-摩擦草属所特有的;在摩擦草中发现249个lncRNA,平均长度1.45kb,比玉米用PacBio Iso-seq技术测得的lncRNA的平均长度(0.67kb)长,且仅有17个lncRNA与玉米表现为高度一致性。

Fig.2 (a)摩擦草和玉米之间Ka / Ks比值的分布散点图; (b)摩擦草中磷脂代谢基因与其他功能基因的Ka / Ks比值分布图

脂质具有防止细胞膜在低温条件下损伤的作用,因此膜脂质组成的变化可能是与摩擦草的耐冷性相关。研究者比较玉米和摩擦禾中相同基因之间的Ka / Ks值,发现磷脂生物合成途径中的基因显示比背景基因更高的Ka / Ks比值,说明参与磷脂代谢的基因加速了物种的进化过程(Fig.2)。研究指出摩擦草中参与磷脂代谢的相关基因中的蛋白质序列的加速进化可能是造成摩擦草属相对于玉米更耐寒的原因。

案例三

动态转录组监控裂殖酵母减数分裂过程中Isoform水平的多样性[3]

Title:The dynamic landscape of fission yeast meiosis alternative-splice isoforms

Journal:GenomeResearch(January 2017)

IF11.922

可变剪接增加了后生动物转录组和蛋白质组多样性,但人们对于单细胞生物的可变剪接事件还知之甚少。研究者以裂殖酵母为模型,利用三代长读长测序技术的同时开发了SpliceHunter软件用以对其进行转录组的可变剪接事件进行动态分析。

材料与方法

物种:裂殖酵母(Schizosaccharomyces pombe)

取样:在0-10h内间隔2h取样,分别提取RNA测序

测序策略:PacBio RSII

结果分析

从PacBio测序获得的Iso-seq reads 平均长度为1178 bp,共发现了S. pombe中~90%(6,199个)的基因。研究者发现在裂殖酵母的减数分裂时期,发现17,669个异构体,发生了14,353个可变剪切事件,其中,内含子保留是最主要的可变剪接形式(Fig. 3)。研究反映了裂殖酵母S. pombe转录本的复杂性:~1300个基因发生了一次可变剪接,1432个基因发生了两次可变剪接,而发生了2次以上的可变剪接事件的基因超过3000个。

Fig.3 S. pombe中的可变剪接事件

Fig. 4 减数分裂期间不同可变剪接形式的变化趋势

研究发现在裂殖酵母减数分裂期间,大部分的可变剪接类型都有所增加,仅有外显子跳跃类型的可变剪接在减数分裂初期处于低水平而在减数分裂末期有所增加(Fig.4)。这种变化反映了S. pombe在有丝分裂和减数分裂期间的一种条件驱动的可变剪接机制。研究结果反映了裂殖酵母性发育过程中Isoform水平的多样性和动态变化。

由此可见,基于三代长读长测序的Iso-seq技术跨越了传统测序技术无法克服的鸿沟,极大地丰富了对转录本结构的研究,可准确辨别二代测序无法识别的异构体(Isoform)、融合基因、lncRNA等,获得更加全面的注释信息。

未来组的全长转录组学研究,不仅包含PacBio SMRT技术,也已推出基于Nanopore的direct RNA测序技术,开启转录组学研究新纪元,我们有丰富的全长转录组项目经验,针对特定项目,对分析流程进行优化,以期为不同领域的研究者提供更为完善的解决方案。

参考文献

[1]Jia D, Wang Y, Liu Y, et al. SMRT sequencing of full-length transcriptome of flea beetle Agasicles hygrophila (Selman and Vogt)[J]. Scientific reports, 2018, 8(1): 2197.

[2] Yan L, Lai X, Rodriguez O, et al. Parallels between artificial selection in temperate maize and natural selection in the cold-adapted crop-wild relativeTripsacum[J].bioRxiv, 2017: 187575.

[3]Kuang Z, Boeke J D, Canzar S. The dynamic landscape of fission yeast meiosis alternative-splice isoforms[J]. Genome research, 2017, 27(1): 145-156.

延伸阅读

研究全长转录组?建议先看看这几篇文献

Nature methods丨基于Nanoporedirect RNA测序方法测评

异源四倍体棉花全长转录组文献精读

从已发表paper中找找全长转录组研究套路