来自Nanopore测序的2个线虫基因组,解析复杂的染色体重排
本文使用Oxford Nanopore 测序技术对秀丽隐杆线虫的两个品型(野生型;带有两个复杂染色体重排区域的突变型)进行了全基因组测序,完善了秀丽隐杆线虫参考基因组,研究突变型中复杂的重排机制。2017年12月,文章发表于Genome Research。
秀丽隐杆线虫的基因组虽然较小(~100Mb),但是含有大量各种类型的重复序列,其中最普遍的是转座元件,占到基因组的12%。线虫转座子的大小一般在1-3Kb,超出了二代测序和sanger测序的读长范围,如果利用这两个技术对基因组进行测序组装,会导致拼接错误,更不用说准确识别染色体重排、大区段插入、缺失等结构变异了。
为了攻克这些用以往的短读长测序技术无法解决的技术瓶颈,研究人员使用Oxford Nanopore MinION,对秀丽隐杆线虫的两个品型进行了长读长测序并分别de novo组装。
亮点
1.组装完整度、连续性和准确性高
通过~60×Nanopore数据,组装出野生型秀丽隐杆线虫基因组,仅由48个contig组成,N50达3.99Mb,覆盖了参考基因组>99%的区域。
Fig.1 组装出线虫基因组中的contigs与参考基因组有极高的比对一致性
基于长读长优势,Nanopore与二代测序相比,在重复序列区域具有更好的跨越性,能更准确地识别重复元件,完善了参考基因组中>2MB的序列。
Fig. 2 (A)高测序深度的区域可能与重复序列相关
(B)通过重复区域测序深度与全基因组测序深度的比较,分析重复区域contigs组装的准确性
(C)长的测序reads跨越重复序列,增强了contigs组装连续性
原始测序数据准确度~86%,原始canu组装contig单碱基准确度~98%,经二代数据4Xpolish校正后最终达99.8%。
2.研究突变系中复杂的重排机制
1)II号染色体上xpf-1(e1487)区域重排
该突变由乙醛诱变产生,在xpf-1有复杂的重复和插入引起的重排。
Fig.3左侧纵坐标处为野生型线虫的xpf-1模型,右侧纵坐标为mab-3(~20kb)模型。诱变系的xpf-1重排区域中,复制了mab-3,并将其分2段插入到xpf-1的第二个外显子中(Fig.3中蓝色)。另外,插入片段中较大的那一部分,与xpf-1第二个外显子的一部分侧翼一起,再次发生了复制并形成倒转(Fig.3 中绿色和红色)。
Fig.3诱变系线虫Ⅱ号染色体上重排区域(xpf-1)示意图
以往的研究只能以寡核苷酸阵列、RT-PCR、反向PCR等技术对该诱变系的染色体重排模型进行预测。而在本研究中,借助Oxford Nanopore全基因组测序,组装出的一个单独的contig(contig017)包含了完整的xpf-1(e1487)重排区域,从而进行更准确地诠释。
2)Ⅲ号染色体上ruIs32区域,外源质粒插入重排
该突变是由基因枪转入的两个质粒引起的基因片段插入。
通过组装的contig1884(Fig.4横坐标)与质粒pAZ132和unc-119的结构(Fig.4纵坐标)进行共线性比对。结果显示,转基因造成的插入,共包括3个拷贝的Ppie-1::GFP::H2B::pie-1和2个拷贝的unc-119(+)(局部)。
Fig.4 contig1884与质粒pAZ132和unc-119间的共线性分析
3.组装出了2个细菌基因组完成图
顺便提一下,研究人员在组装线虫基因组的同时,还装出了2个完整的细菌基因组(Fig.1中的contig14和20),经过比对数据库分析,认为细菌来源于线虫培养基,在提取线虫DNA时未被去除。
这提醒我们,如果是de novo组装基因组,尤其是小型动物,昆虫等物种,须尽可能减少环境微生物和肠道微生物的影响。
当然这也给了我们另一种启示,可以用Oxford Nanopore 技术研究微生物与宿主间的共生关系,研究一个物种的内外微环境等等。
本文利用Oxford Nanopore测序技术提升了线虫参考基因组组装指标,通过de novo组装研究了突变型线虫基因组的复杂染色体重排。另外我们还可以借助该技术的长读长优势,进行群体间(不同表型间),亚种间(例如不同品种的玉米),种间(例如研究在基因组加倍化事件后趋异的染色体重排,进行物种进化起源分析)等,各水平的比较研究。