Nature|多亏了PacBio,消灭蚊子有希望了
埃及伊蚊基因组(AaegL5)近1.25Gb且高度重复,由于缺少高质量基因组,针对埃及伊蚊的生物学控制手段迟迟未能推进。2007年发布的AaegL3[2]基因组因不够连续,未能全部挂载到染色体水平,近期的AaegL4[5]虽组装到出了染色体长度的scaffolds,但是由于contigs太短致使gap过多。因此研究人员选择了PacBio辅以Hi-C染色体构象技术组装出了高连续性的基因组,足足缩减了93%的contigs数,且端对端地锚定到了三条染色体上。使用光学图谱和linked-read测序,研究者验证了单倍型之间的局部结构和预测的结构变异。基于RNA-seq的read匹配序列平均提升了12%,并将之前被多个contigs分离了的基因模型连接起来,且使用ATAC-seq(利用转座酶研究染色质可接近性的高通量测序)对临近转录起始位点比对富集增加了近两倍,依此评估出基因集的注释得到了显著提升。
研究生成了166Gb的PacBio长读长数据(约130×)并使用FALCON-Unzip进行组装,得到2.05Gb基因组(Contig N50为0.96Mb,预期基因组大小一半以上的contigs>1.92Mb)(见表1)。
表1 组装统计比较
由于组装基因组比预期要大,因此研究使用了Hi-C染色体构象技术对上述组装用到的7,790条contigs进行排序和定向,通过Hi-C数据锁定了258个连接错误的区域后,得到了混合数据生成的8,306条有序定向的contigs;然后基于重合区域通过开发的流程排除了5,440个gaps并提升连续性,将94%的测序碱基锚定到三条染色体上。随后又使用PacBio长reads进行补洞和数据打磨,得到了1.279Gb的AaegL5基因组和完整的线粒体基因组。最后,使用Hi-C连接图谱,研究者估算出了近5Mb分辨率的着丝粒位点,且1号染色体近150-154Mb,2号染色体近227-232Mb,3号染色体约196-201Mb。
图1 AaegL5组装统计和注释
较之AaegL3和AaegL4,使用BUSCO评估出AaegL5更多的单拷贝直系同源基因,片段化和丢失的基因更少,连续性显著提升,且AaegL5中有65%的转座元件和重复序列。另外,研究使用NCBI RefSeq注释流程生成AaegL5.0注释版本,为253个性别、组织、发育阶段特异的RNA-seq文库的转录本富集综合定量建立基础。和之前的AaegL3.4版本比较后发现AaegL5.0优势明显,例如在基因组尺度上map到了1.8倍于原来基因集的ATAC-seq reads以预测转录起始位点。
接下来,研究者又验证了AaegL5组装版本在碱基水平和结构上的准确度。为开发基于AaegL5精细的物理图谱,研究生成了500个BAC克隆,包含伊蚊基因组DNA及通过荧光原位杂交绘制的物理图谱,然后比较它们的组装坐标,发现物理图谱和BAC末端比对序列之间一致性达97.4%。总之,AaegL5物理图谱的基因组覆盖度达到93.5%,相较于仅有45%的AaegL3,该物理图谱是目前所有蚊子基因组中最完整的。
近期复制的基因由于序列相似性高易被归为单个基因组的等位基因,因此含有多个基因的大型基因家族往往难于组装和注释,因此研究借助升级版的AaegL5基因组和AaegL5.0注释版本分析了大型基因家族中编码蛋白酶、G蛋白耦合受体和化学感应受体的基因并鉴定到54个新的离子受体基因,几乎是已知该家族成员的两倍。对于化学感应受体完整的特征描述将有助于开发紊乱蚊子叮咬行为的新策略(见图2)。
图2 染色体排列和新增的感应受体基因数
伊蚊和库蚊的性别决定受显性的雄性性别决定因子(M factor)支配,位于M locus染色体上,这条染色体除M/m染色体组型外都是同态的,即雌性为m/m,雄性为M/m,M locus的分子机制一直未能探明。研究比对了雌雄两种个体基因组(AaegL5和AaegL4),鉴定出了包含一种名为Nix的M factor的区域,可能代表分化的M/m位点,随后又对两个基因组中M locus进行了比较分析,发现Nix包含一段100Kb的单个内含子,而紧密关联M locus的基因myo-sex则近300Kb,且M locus有超过73.7%的重复序列。研究还通过对基因组雄性特异信号区域进行定量的方法探究了性染色体之间的分化,等等。更完整的蚊子M locus组装使得同态的性别决定染色体进化和延续的研究成为可能。
图3 AaegL5用于解析性别决定位点
最后,研究者借助Illumina和10×Genomics平台来分析埃及伊蚊基因组中包含插入、缺失、易位和倒位等结构变异,重点分析了编码高度保守转录因子的Hox基因和大型多基因组家族GSTs(谷胱甘肽S转移酶家族),还通过对四个实验室克隆样本进行全基因组测序以在全基因组范围内分析埃及伊蚊的遗传多样性,并且分析了其作为登革热病毒载体的感染能力和对拟除虫菊酯(模拟天然除虫菊素的人工合成杀虫剂)的抗性。
参考文献
[1] The Genome Sequence of the Malaria Mosquito Anopheles gambiae[J]. Science, 298.
[2] Nene V , Wortman J , Lawson D , et al. Genome sequence of Aedes aegypti, a major arbovirus vector.[J]. Science, 2007, 316(5832):1718-23.
[3] Chen X G, Jiang X, Gu J, et al. Genome sequence of the Asian Tiger mosquito, Aedes albopictus, reveals insights into its biology, genetics, and evolution[J]. Proc Natl Acad Sci U S A, 2015, 112(44):E5907.
[4] Matthews B J, Dudchenko O, Kingan S B, et al. Improved reference genome of Aedes aegyptiinforms arbovirus vector control . [J].Nature,2018,https://doi.org/10.1038/s41586-018-0692-z.
[5] Dudchenko, O. et al. De novo assembly of the Aedes aegypti genome using Hi-C yields chromosome-length scafolds. Science 356, 92–95 (2017).
发表评论
想参加讨论吗?请尽情讨论吧!