产品优势
快速:K-mer分析方法,可快速确定基因组特征
专业:简单基因组和复杂基因组(高杂合、多倍体等)采用不同算法软件
方案策略
DNA样本量 | 建库策略 | 测序策略 |
总量 ≥ 1 μg | Illumina PE150普通文库;或 MGI PE150 普通文库 | 推荐数据量 ≥ 50X |
分析内容
- 原始数据质控
- 数据污染检测
- 基因组大小预估
- 基因组杂合度预估
结果展示
1数据质控及污染评估
对原始数据进行质控过滤,然后对原始数据(Raw data)及过滤后数据(Clean data)进行质量统计。随机取100,000条质控后的reads,统计reads在nt库中的分布情况及比对上的物种分布,以评估数据污染情况。
图1 a碱基质量分布图,b主要物种分布图
2 基因组大小和杂合度估计
利用偏正态分布模型(skew normal distribution model),负二项式模型 (negative binomial model) 对K-mer 数据进行拟合分析,进行基因组大小以及杂合度的评估,并生成最终基因组评估结果。
图2 17-mer分布曲线
4 GC-Depth分析及污染评估
对组装的基因组序列以5kb为windows,无重复计算片段的平均GC含量和平均深度并作图。基于每一个windows对应的平均GC和平均深度进行绘图。可以根据此图分析测序数据是否存在GC偏向性以及样本是否存在污染。
图 4 GC含量及深度分布图
常见问题
1 怎么查询基因组的大小?
查询植物基因组大小的网站:https://cvalues.science.kew.org;
查询动物基因组大小的网站:http://www.genomesize.com/search.php。
换算关系:1pg=978Mb
2 做基因组三代测序组装前,为什么建议要做基因组Survey?
Survey是评估基因组复杂程度的有效手段,在做基因组三代测序组装前,对基因组特征进行评估十分有必要,基因组大小及杂合度等特征直接影响到基因组的测序策略、周期等等。
3 Survey评估和流式细胞仪评估有什么区别?
两者都可以对基因组的大小进行评估,区别是Survey评估从数据统计角度上进行分析,可同时预估基因组大小和杂合度,得到的信息更为全面和准确。而流式细胞仪评估是通过实验手段对基因组大小进行分析,需要通过已知内参物种基因组大小来评估被测物种的基因组大小。内参选择不同,实验预估基因组大小与实际会有一些偏差。
4 做了基因组Survey是否就一定不用做流式了呢?
不是。一般建议在做Survey之前先做一下流式对基因组大小有个初步的预估,特别是基因组复杂又研究甚少的物种,这样方便预估Survey分析的测序数据量,同时可以对Survey结果进行验证:K-mer分析中,我们把K-mer分布最多的峰确认为主峰,主峰前的1/2的峰称为杂合峰,把主峰后2倍的位置的峰称为重复峰。这时我们需要流式的结果来对我们的判断进行验证。
5 Survey分析中,如何选择K-mer长度?
一般选择17-mer用来评估基因组大小,其原因是ATCG四种不通过的碱基组成的长度为17的核苷酸片段有417~17G,足以覆盖一般的正常基因组;如果选择15-mer,则只有1G的可能。对于正常基因组可能覆盖度不够,导致估计不准确,当然对于较大基因组>15G,我们可尝试采用19-mer或21-mer进行评估。由于Reads上存在错误碱基,K-mer并非越大越好,K-mer选择的越大,包含这个错误位点的K-mer的个数就会越多。另外为了避免回文序列,K-mer分析选择K长度均为奇数。