Nature|多亏了PacBio,消灭蚊子有希望了

世界上最致命的动物是什么?答案竟然是不起眼的蚊子!不幸的是,每年因蚊子传染的疾病造成多达百万人的死亡!例如雌性埃及伊蚊,每年感染超过4亿人,传播包括登革热、黄热病、寨卡病毒以及切昆贡亚热在内的可怕疾病。
对此,科学家们能做些什么呢?
2002年,冈比亚按蚊(Anopheles gambiae)基因组图谱绘制成功,成为疟疾研究领域的里程碑[1],2007年、2015年,传播登革热、切昆贡亚热等疾病的元凶埃及伊蚊(Aedes aegypti )[2]和白纹伊蚊(Aedes albopictus )[3]基因组相继问世。期间,转基因不孕不育、无精蚊子的研究层出不穷,而就在近日,由洛克菲勒大学领导的国际研究团队在《Nature》杂志上发表了高质量且重新注释的埃及伊蚊基因组[4]。该研究结合了PacBio、Bionano光学图谱、Hi-C分析、10x Genomics的Chromium linked-read测序以及Illumina的短读长测序多种手段大大升级了埃及伊蚊的参考基因组,通过锚定物理图谱和细胞遗传图谱鉴定出了两倍于已知的、引导蚊子以人类为目标、定点产卵的化学感应离子受体。基于此,该发现有助于深入了解雄性性别决定位点的大小和组成并揭示杀虫剂耐药性关联基因之间的拷贝数变异。使用高分辨率的定量性状位点和群体遗传分析,研究者定位到了新的与登革热传染能力和拟除虫菊酯抗性相关的候选基因。埃及伊蚊升级后的参考基因组将为对抗这致死疾病的媒介带来新的生物学观点和防治策略,可谓是功德一件。

埃及伊蚊基因组(AaegL5)近1.25Gb且高度重复,由于缺少高质量基因组,针对埃及伊蚊的生物学控制手段迟迟未能推进。2007年发布的AaegL3[2]基因组因不够连续,未能全部挂载到染色体水平,近期的AaegL4[5]虽组装到出了染色体长度的scaffolds,但是由于contigs太短致使gap过多。因此研究人员选择了PacBio辅以Hi-C染色体构象技术组装出了高连续性的基因组,足足缩减了93%的contigs数,且端对端地锚定到了三条染色体上。使用光学图谱和linked-read测序,研究者验证了单倍型之间的局部结构和预测的结构变异。基于RNA-seq的read匹配序列平均提升了12%,并将之前被多个contigs分离了的基因模型连接起来,且使用ATAC-seq(利用转座酶研究染色质可接近性的高通量测序)对临近转录起始位点比对富集增加了近两倍,依此评估出基因集的注释得到了显著提升。

研究生成了166Gb的PacBio长读长数据(约130×)并使用FALCON-Unzip进行组装,得到2.05Gb基因组(Contig N50为0.96Mb,预期基因组大小一半以上的contigs>1.92Mb)(见表1)。

表1 组装统计比较

由于组装基因组比预期要大,因此研究使用了Hi-C染色体构象技术对上述组装用到的7,790条contigs进行排序和定向,通过Hi-C数据锁定了258个连接错误的区域后,得到了混合数据生成的8,306条有序定向的contigs;然后基于重合区域通过开发的流程排除了5,440个gaps并提升连续性,将94%的测序碱基锚定到三条染色体上。随后又使用PacBio长reads进行补洞和数据打磨,得到了1.279Gb的AaegL5基因组和完整的线粒体基因组。最后,使用Hi-C连接图谱,研究者估算出了近5Mb分辨率的着丝粒位点,且1号染色体近150-154Mb,2号染色体近227-232Mb,3号染色体约196-201Mb。

图1 AaegL5组装统计和注释

较之AaegL3和AaegL4,使用BUSCO评估出AaegL5更多的单拷贝直系同源基因,片段化和丢失的基因更少,连续性显著提升,且AaegL5中有65%的转座元件和重复序列。另外,研究使用NCBI RefSeq注释流程生成AaegL5.0注释版本,为253个性别、组织、发育阶段特异的RNA-seq文库的转录本富集综合定量建立基础。和之前的AaegL3.4版本比较后发现AaegL5.0优势明显,例如在基因组尺度上map到了1.8倍于原来基因集的ATAC-seq reads以预测转录起始位点。

接下来,研究者又验证了AaegL5组装版本在碱基水平和结构上的准确度。为开发基于AaegL5精细的物理图谱,研究生成了500个BAC克隆,包含伊蚊基因组DNA及通过荧光原位杂交绘制的物理图谱,然后比较它们的组装坐标,发现物理图谱和BAC末端比对序列之间一致性达97.4%。总之,AaegL5物理图谱的基因组覆盖度达到93.5%,相较于仅有45%的AaegL3,该物理图谱是目前所有蚊子基因组中最完整的。

近期复制的基因由于序列相似性高易被归为单个基因组的等位基因,因此含有多个基因的大型基因家族往往难于组装和注释,因此研究借助升级版的AaegL5基因组和AaegL5.0注释版本分析了大型基因家族中编码蛋白酶、G蛋白耦合受体和化学感应受体的基因并鉴定到54个新的离子受体基因,几乎是已知该家族成员的两倍。对于化学感应受体完整的特征描述将有助于开发紊乱蚊子叮咬行为的新策略(见图2)。

图2 染色体排列和新增的感应受体基因数

伊蚊和库蚊的性别决定受显性的雄性性别决定因子(M factor)支配,位于M locus染色体上,这条染色体除M/m染色体组型外都是同态的,即雌性为m/m,雄性为M/m,M locus的分子机制一直未能探明。研究比对了雌雄两种个体基因组(AaegL5和AaegL4),鉴定出了包含一种名为Nix的M factor的区域,可能代表分化的M/m位点,随后又对两个基因组中M locus进行了比较分析,发现Nix包含一段100Kb的单个内含子,而紧密关联M locus的基因myo-sex则近300Kb,且M locus有超过73.7%的重复序列。研究还通过对基因组雄性特异信号区域进行定量的方法探究了性染色体之间的分化,等等。更完整的蚊子M locus组装使得同态的性别决定染色体进化和延续的研究成为可能。

图3 AaegL5用于解析性别决定位点

最后,研究者借助Illumina和10×Genomics平台来分析埃及伊蚊基因组中包含插入、缺失、易位和倒位等结构变异,重点分析了编码高度保守转录因子的Hox基因和大型多基因组家族GSTs(谷胱甘肽S转移酶家族),还通过对四个实验室克隆样本进行全基因组测序以在全基因组范围内分析埃及伊蚊的遗传多样性,并且分析了其作为登革热病毒载体的感染能力和对拟除虫菊酯(模拟天然除虫菊素的人工合成杀虫剂)的抗性。

总结
这份研究最闪光的地方在于研究者结合了PacBio、Bionano、Hi-C以及10×Genomics多个平台,不仅获取了高度连续、高分辨率的埃及伊蚊基因组,还使用了多种方法综合分析了它与化学感应离子受体相关的基因,这些基因和蚊子辨别人类气味的关键基因,对它们的定位分析可谓是开发新型驱蚊剂的第一步,而且研究还探究了其性别决定因子的关键基因,又为从源头上控制蚊子数量提供了理论支持。希望研究人员在PacBio、Nanopore、10×Genomics等平台的助力下尽快掌握蚊虫遗传控制的机理,拯救那些受疟疾、登革热、寨卡病毒困扰的人们于水生火热之中,造福人类!

参考文献

[1] The Genome Sequence of the Malaria Mosquito Anopheles gambiae[J]. Science, 298.

[2] Nene V , Wortman J , Lawson D , et al. Genome sequence of Aedes aegypti, a major arbovirus vector.[J]. Science, 2007, 316(5832):1718-23.

[3] Chen X G, Jiang X, Gu J, et al. Genome sequence of the Asian Tiger mosquito, Aedes albopictus, reveals insights into its biology, genetics, and evolution[J]. Proc Natl Acad Sci U S A, 2015, 112(44):E5907.

[4] Matthews B J, Dudchenko O, Kingan S B, et al. Improved reference genome of Aedes aegyptiinforms arbovirus vector control . [J].Nature,2018,https://doi.org/10.1038/s41586-018-0692-z.

[5] Dudchenko, O. et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scafolds. Science 356, 92–95 (2017).

0 回复

发表评论

想参加讨论吗?
请尽情讨论吧!

发表评论

邮箱地址不会被公开。 必填项已用*标注