深渊探秘||解析马里亚纳海沟狮子鱼深海适应性机制

2019年4月16日,中科院深海科学与工程研究所,水生生物研究所以及西北工业大学生态与环境保护研究中心等多家单位,在Nature ecology & evolution上发表题为“Morphology  and  genome  of  a  snailfish  from  the  Mariana  Trench  provide  insights  into  deep-sea  adaptation”的研究成果。中科院深海所和水生所何舜平研究员以及西北工业大学王文教授、邱强教授为本文共同通讯作者。西北工业大学王堃助理教授、兰州大学杨勇志研究员、水生所沈彦君博士及甘小妮副研究员为本文并列第一作者。本研究以生活在马里亚纳海沟6,000m深处以下的狮子鱼Pseudoliparis swirei为研究对象,通过形态学、基因组和转录组等多种分析手段揭示了马里亚纳海沟狮子鱼深海适应性的形态、生理变化及分子机制。武汉未来组有幸完成了该项目的三代测序工作。
马里亚纳海沟(Mariana Trench)是世界上已知的最深的海洋地带,低温、黑暗、缺氧、有限的食物资源以及极高的静水压力(约1,000标准大气压)使其成为地球上最恶劣生存环境之一。狮子鱼(Liparid snail-fishes)是最常见的超深渊脊椎动物,也是超深渊环境中的顶级捕食者。

马里亚纳深渊狮子鱼(Mariana hadal snailfish,MHS)的形态特征

研究者在马里亚纳海沟多个位置捕获到MHS,体型形状与生活在浅海区域的Tanaka狮子鱼相似,但是MHS表皮透明可以清晰的看到腹腔内的肌肉和内脏(图1a,b)。此外MHS还表现出其他适应深海环境的形态特征,比如扩大胃,肝脏和卵子,更薄的肌肉和不完全骨化的骨骼。

图1. MHS与Tanaka’s snailfish形态对比

MHS与浅海狮子鱼基因组从头组装

利用PacBio第三代单分子实时测序技术以及二代Illumina对MHS进行测序,最终获得了684Mb的高质量MHS基因组,scaffold N50为418Kb。BUSCO数据库评估表明基因组的完整性为91.7%,与其他硬骨鱼类的完整性相当。研究者还对15个组织的28个样本进行了转录组测序,超过89%的转录本序列能够比对到基因组上,进一步验证了组装基因组的完整性。同时,研究者还对浅海狮子鱼Tanaka进行测序组装,结果发现MHS比Tanaka的基因组大了150 Mb(约21.9%),这可能主要是由于MHS基因组中重复序列的扩展造成的,而MHS基因组的其他特性,包括其GC含量,密码子,基因长度和外显子数与Tanaka中的相似,暗示它们可能不是导致MHS能够适应深海环境的因素。

群体历史

研究者利用9种硬骨鱼类的蛋白质序列(MHS,Tanaka,棘鱼,河豚,阔尾鱼,鳕鱼和斑马鱼,比目鱼和太平洋蓝鳍金枪鱼)构建系统发育树(图2a),发现MHS和Tanaka在大约2,022万年前发生了分化,这比马里亚纳海沟的形成时间早了1,000万年。对两个物种的动态有效种群大小(Ne)的估计表明,MHS的种群数量大于Tanaka种群,并且在大约5万年前经历了显著的种群扩张。MHS种群相当大,具有丰富的遗传多样性。

在这9个物种中,MHS具有最低的突变率(图2c),全基因组水平MHS的突变率也低于Tanaka和棘鱼(图2d)。研究表明突变率对多种因素特别是世代时间敏感,同时观察到雌性MHS产生的卵子数量少于其他种类狮子鱼的雌性,因此,MHS较长的世代时间可能与其低突变率相关。

图2. MHS的进化历史

马里亚纳深海狮子鱼特殊表型的分子机制

生活在地球表面的脊椎动物已经闭合了由硬骨包围的颅骨空间,以保护大脑并维持适当的颅内压。然而,封闭的头骨在非常高的环境压力下不能保持其结构完整性,大多数深渊动物都是无骨生物。MHS却是个例外,使用计算机断层扫描发现MHS的颅骨未完全闭合(图3a,b)这使得其可以平衡内外部压力,更重要的是MHS的大部分骨骼是软骨。研究发现MHS的骨钙素基因bglap,发生了移码突变(图3c),作者利用斑马鱼(Danio rerio)为实验材料,通过抑制bglap基因的表达结合钙黄绿素染色(图3d-g),证明了bglap提前终止可能与MHS不寻常的颅骨结构和骨骼硬度降低有关。

接着对MHS的晶体蛋白和视蛋白基因的变化进行了比较基因组分析,发现它已经失去了几个重要的光感受器基因,并且色素沉着基因mclr在该物种中完全丢失。这些结果与MHS对深海探测器的灯光没有反应,失去了皮肤色素沉着,变得透明等表型特征相适应。

图3. MHS不完整的颅骨与骨钙素(bglap)基因的过早终止表达有关

细胞膜的变化

众所周知,细胞膜是含有磷脂双分子层和蛋白质的可流动结构。而深海极高的静水压降低了脂双层的流动性和相变可逆性,最终导致膜相关蛋白的变性和功能失调。对9个硬骨鱼基因家族分析发现,MHS中与脂肪酸代谢相关的基因家族显著扩增。深海适应生物比浅海生物的膜含有更高含量的不饱和脂肪酸,其中二十二碳六烯酸(DHA)可以显著改变膜的芳基链顺序和流动性,渗透性和高压下的蛋白质活性。Acaal基因编码的蛋白质是DHA合成过程的限速酶,研究者发现MHS基因组有15个acaal基因拷贝,而所有其他完全测序的硬骨鱼类只有5个拷贝,同时参与DHA生物合成的另一个基因fasn也在MHS基因组中表现出拷贝数增加。这些变化可能会增加生物膜液体脂质的丰度,使其适应深海的高静水压环境。

其他显著扩展的类别包括具有离子和溶质运输功能相关的基因家族,这提供了揭示MHS适应极端静水压力的线索。GO分类表明相比Tanaka,MHS中“离子转运”,“跨膜转运”和“钙离子转运”蛋白进化速率显著增加,这些基因谱系的特异适应性进化可能与膜转运系统活性有关,帮助鱼在高压下茁壮成长。

图4. MHS基因组的基因家族扩展与适应性进化

蛋白质活性的维持

静水压通过影响蛋白质折叠和酶活性抑制其功能。生活在很深处的物种必须保持细胞内环境,抵抗高压,维持蛋白质结构特性。目前有两种机制解释深海生物蛋白质活性维持,分别是生理适应和结构适应。

Trimethylamine N-oxid(TMAO)是一种生理上重要的蛋白质稳定剂,可以将变性蛋白质恢复到其天然结构。大多数硬骨鱼类基因组含有5个拷贝的TMAO合成酶——黄素单加氧酶3(fmo3),其中4个是串联重复序列(图5a),而第一个拷贝fmo3a基因在MHS的肝脏中强烈表达,并且fmo3a在MHS中被正向选择。作者预测MHS中该基因上游有5个拷贝启动子比浅海狮子鱼(1个拷贝)或棘鱼(2个拷贝)更多。这些发生在基因编码及调控序列的变化可能有助于MHS增加细胞内TMAO水平以增强蛋白质稳定性。

蛋白质对深海条件的结构适应包括氨基酸取代模式和蛋白质结构的改变,MHS与其他物种的氨基酸组成和所有编码基因的替换相互比较,所有蛋白质中不存在全局性的组成和替代变化。进一步对各基因家族聚合氨基酸取代进行分析,仅有hsp90基因表现出高可信度的聚合氨基酸变化——在MHS的hsp90蛋白5个拷贝中,有4个独立地发生了同样的丙氨酸-丝氨酸取代,这一位点在人类、小鼠、鸡、变色龙和酵母的相应蛋白质中是高度保守的位点(图5b)。Hsp90是一种进化上保守且高度丰富的分子伴侣,可促进200多种蛋白质的正确折叠和活化。四个MHS hsp90亚型同源性建模发现在相对保守的基序FYSSX中具有丙氨酸-丝氨酸突变,并且所有突变的丝氨酸都位于ATP结合袋附近,并可能对影响hsp90活性的局部结构相互作用有重要影响(图5c)。

图5. 在MHS中增加蛋白质对静水压力的稳定性

总 结

研究者利用深海探测器在马里亚纳海沟首次发现狮子鱼Pseudoliparis swirei,也是目前我国在深海获取样本的最大深度(7,415m),该研究解析了脊椎动物适应深海海沟极端环境的遗传基础:

1. 形态学分析发现,与浅海区域的Tanaka狮子鱼不同,P. swirei具有一系列适应深海生活的特征如透明的皮肤,膨大的胃部,不完全骨化的骨骼以及非闭合性颅骨。

2. 系统发育分析表明,大约2000万年前,P. swirei与居住在海面附近的近亲分开,具有丰富的遗传多样性。

3. 基因组分析显示:

a) 骨钙素基因(bglap)具有移码突变,可能导致软骨钙化的早期终止;

b) P. swirei的细胞膜流动性和转运蛋白活性可能因蛋白质序列和基因改变而增强;

c) 三甲胺N-氧化物(TMAO)合成酶和hsp90伴侣蛋白中的关键突变可能增加了其蛋白质的稳定性。

本研究中发现的众多遗传变化揭示了脊椎动物物种如何在深海中生存和繁衍,提供了对脊椎动物的形态,生理和分子进化新的见解。

DNA测序技术及生物信息技术的发展为物种的起源和进化研究提供了有力的科学依据。武汉未来组拥有PacBio Sequel、Oxford Nanopore、Bionano Saphyr光学图谱及Hi-C染色体构象捕获等技术和平台,助您打造高质量参考基因组,为后续进一步认识物种的遗传多样性以及适应进化等分子机制的研究提供保障。

参考文献

Wang K, et al., Morphology and genome of a snailfish from the Mariana Trench provide insights into deep-sea  adaptation. 2019. Nature Ecology & Evolution, https://doi.org/10.1038/s41559-019-0864-8.

伞形真菌进化大观

未来组又一篇Nature Communications || 高质量苹果基因组撩动你心

2019年4月2日,中国农业科学院果树研究所与武汉未来组等单位共同合作的研究成果“A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour”发表于国际顶级期刊Nature Communications。中国农业科学院果树研究所张利义副研究员与未来组生物信息研发总监胡江为本文并列第一作者,中国农业科学院果树研究所丛佩华研究员与未来组创始人汪德鹏为本文共同通讯作者,武汉未来组的李净净,田玉等四人为本文共同作者。本研究以来源于花药的苹果纯合系HFTH1为材料,采用三代PacBio测序技术,结合光学图谱Bionano和Hi-C技术辅助组装,获得高质量苹果基因组图谱(contigN50为6.99Mb,2017年发表的苹果基因组contigN50为620kb)。有趣的是,进一步研究发现花青素生物合成的核心转录激活因子MdMYB1上游UTR区域的一个LTR反转录转座子的插入与果实红色相关联。本研究为探讨红色果实着色的分子机制提供了重要见解,同时突出了高质量的基因组组装在破解苹果重要农业性状中的实用性。

苹果基因组是苹果遗传研究和分子育种的基础,可推动苹果的可持续生产。尽管早前发布的高质量金冠(Golden Delicious)基因组使苹果育种研究取得了一些进展,但仅仅利用这些数据在发现新基因和描述基因组结构变异方面仍存在一些局限性。

材料选择

在中国北方地区广泛栽培的寒富(Hanfu)品种是高度杂合二倍体,经过花药体外培养的纯合子植株HFTH1(三倍体)大大降低了杂合度(Fig.1);通过对相应Illumina reads进行SNP calling,发现与先前发表的双单倍体金冠(GDDH13)相比,HFTH1的纯合度更高(Fig.2),高度纯合的基因组有利于提升基因组组装质量。

Fig.1花药培养再生植株HFTH1表型与杂合子供体(HFP)基因型的显著变化

Fig.2 GDDH13及HFTH1基因组中的SNP数量

基因组组装及质量评估

对~117× PacBio数据(平均读长13.1 kb)进行初步组装,获得了一个初步组装结果:基因组大小656.52 Mb,Contig N50 4.63 Mb;随后使用PacBio长reads及Illumina 数据对组装结果进行polish;应用~224× Bionano光学图谱数据将polish后的contigs组装成scaffold;随后,应用145× Hi-C数据进行精确聚类并排序,最终组装出一个高质量的苹果基因组,包含17条模拟染色体(Fig.3a,3b),基因组大小658.90 Mb,contig N50 of 6.99 Mb;此外,还将160,068 bp叶绿体基因组和396,939 bp线粒体基因组组装成完成图。

Fig.3 (a)17条染色体间的Hi-C互作图(100-kb resolution);(b)HFTH1基因组特征

本研究组装的HFTH1基因组在7条染色体的两端和8条染色体的一端共捕获22条长端粒序列(拷贝数从294到1073,Fig.3b)。BUSCO评估基因完整度达到~97.0%,覆盖公共数据库Malus domestica基因组中98.02%的ESTs。将组装结果进一步与水稻基因组(RGAP7)和拟南芥基因组(TAIR10)比较,发现HFTH1基因组BUSCO评估与两者都很接近,表明我们组装的基因组完整度达到模式植物的水平。

基因注释
研究者在苹果HFTH1基因组中注释出44,677个蛋白质编码基因,其中~4.29%的基因位于GDDH13基因组的gap区。在HFTH1和GDDH13基因组中分别注释出393.88 Mb 和362.18 Mb的转座元件(TEs)。HFTH1基因组中每条染色体中部都有一个高度重复的区域(重复序列含量>90%),研究者推测这些区域可能是异染色质区的一部分(Fig.3b),而这些区域中最丰富的重复元件属于Copia-7家族。
金冠和寒富比较基因组分析
基因组的结构变异是物种表型多样性的重要来源。通过HFTH1和GDDH13基因组比较分析发现,HFTH1基因组中有18,047个缺失,12,101个插入和14个大的倒位(INVs,Fig.4)。研究者将其中与GDDH13中共有的结构变异定义为GDSVs,其中一个包含SINE的GDSV插入到了抗病基因的3′UTR区域,还有一个GDSV则是在C-repeat/DRE结合因子(MdCBF2,寒冷适应相关的主要调控基因)5′UTR区发生了缺失。研究者还发现,这些GDSVs中的插入和缺失片段大小相近,且超过70%的GDSVs与TEs相关。

Fig.4 结构变异特征

寒富LTR反转录转座子动态演化

转座子在物种适应性进化中扮演重要角色,而在苹果基因组中,超过75%的转座子都是LTR-RTs,为了追溯苹果基因组中LTR-RTs的动态演化历程,研究者在HFTH1基因组中鉴定了7,313个完整的LTR-RTs,平均读长7,868 bp(Fig.5a)。其中约62%的LTR-RTs在金冠基因组中同样存在(Fig.5b),说明这些LTR-RTs可能早已插入到寒富和金冠的共同祖先中。在蔷薇科基因组中,梨和苹果有共同相对保守的基因组,但由于梨基因组较片段化,在梨基因组中只发现了40个完整的LTR-RTs,进一步的分析表明,苹果基因组中的大多数LTR-RTs可能是在梨与苹果分化之后插入苹果基因组的,这一结果与这些LTR-RTs平均插入时间(0.8 MYA)显著低于苹果和梨估算的分化时间(8.1 MYA)相一致(Fig.5c)。比较HFTH1和GDDH13基因组,其中一半以上共有的LTR-RTs高度相似(identity≥0.99,Fig.5b),且共有的LTR-RTs及其侧翼区域的平均累积核苷酸替换(CNS)低于基因组的平均水平(Fig.5d)。

Fig.5 HFTH1基因组完整LTR反转录转座子演化

进一步对LTR-RTs进行分析,发现两侧有2个TSDs的特异LTR-RTs(占总LTR-RTs的31.9%)只在HFTH1基因组中发现(Fig.5b),在GDDH13基因组的对应位置却只有1个TSD,表明特异的LTR-RTs是在寒富和金冠分化之后插入的。这些特殊的插入事件,特别是在基因内或靠近基因区的,可能是在较强选择下固定下来的,因为蛋白编码基因占总基因组的22.22%,但只有12.05%的插入事件是在基因内发生。在基因区附近观察到的插入事件也比预期的少(Fig.5e)。而且,靠近这些插入位点的基因其平均表达水平也比总基因集低。但是,当插入在大于1kb的基因上时,则选择压力很弱或者丧失(Fig.5e)。进一步分析发现,与64.39%共有的LTR-RTs相比,82.54%的特异LTR-RTs至少在一个受测样本中表达,暗示大部分的特异LTR-RTs都年轻且富有活性。插入事件不仅影响附近基因的表达,而且增加了插入位点附近的突变率。本研究数据还发现随着与LTR-RTs距离的增加, CNSs逐渐减少(Fig.5d)。同时,研究者发现随着LTR-RTs分化时间的增长平均的CNSs也增加(Fig.5f),但是当转座子逐渐失活变成非功能性序列时,平均CNSs速率呈下降趋势并逐渐达到瓶颈(Fig.5g)。此外,研究者发现HFTH1基因组中2.9%的LTR-RTs在GDDH13基因组中可能已经被选择性清除。清除的LTR-RTs周围序列的平均CNSs在基因组中最高(Fig.5d),暗示在TEs演化过程中,清除事件可能比插入产生更大的影响。在HFTH1基因组中TEs的动态演化可能创造了独特的遗传和表型特征。

反转录转座子与苹果红色的关联性

比较 HFTH1 和 GDDH13基因组MdMYB1序列,结果表明MdMYB1的编码序列是一致的,但是,在内含子区域发现了1个SNP,在上游区域发现15个SNPs和5个Indels。其中,GDDH13有1个501bp的插入,HFTH1有1个4097bp的插入,为gypsy-like LTR 反转录转座子,被称为redTE(Fig.6a)。尽管在HFTH1基因组中发现有3913个gypsy-like LTR 反转录转座子,但只有1个与redTE具有96.26%的相似性(被称为redTE-like),其它的相似度均低于75.10%。有意思的是,研究者发现redTE-like只存在于在HFTH1基因组中,在GDDH13基因组中没有发现,其两侧的LTR序列突变更多,这一结果暗示redTE-like比redTE更古老。

为研究上述的不同是否与苹果果实的颜色相关,研究者从数据库中调取这些有差别的序列进行比较。结果发现HFTH1基因组中的16个SNPs和2个Indels在非红皮品种也存在,而GDDH13的501bp插入在红皮品种中也被发现。随后,研究者研究了redTE与苹果红色的关系。对已知的112个红皮品种和非红皮品种进行redTE的PCR研究,结果发现在所有的红皮品种中均发现有redTE,而非红皮品种中均没有redTE(Fig.6b),暗示redTE插入可能与苹果的红果皮相关。接着,研究者筛选了75个非红皮品种HuaYue与红皮品种Honeycrisp的杂交后代(包括41个红皮品种和34个非红皮品种),同样证实了红皮表型与redTE的共分离(Fig.6c)。由此可见,redTE与苹果的红皮表型相关。后续研究者还通过Transient方法证明redTE可作为增强子,且redTE可调节苹果光响应基因MdMYB1的高表达。

Fig.6 苹果红色表型与一个LTR反转录转座子的关联性

讨 论
高质量的基因组组装对于识别结构变异、整合表型-基因型关联、深入了解基因组进化以及阐明重要性状的遗传结构具有重要价值。本研究的参考基因组可对GDDH13基因组进行高质量补充,可精确识别大的和复杂的SVs,同时,为苹果独特的生物学特征的比较基因组研究和种类基因组多样性研究奠定基础。比较基因组结果表明,TEs的动态变化可导致产生大量的SVs,这可能会对基因型产生影响。redTE的发现将激发研究人员进一步探讨TEs作为主要表型变异创造者的重要性。事实上,TE诱导的影响在基因组水平的分析还只用在人和几种农作物上。因此,HFTH1和GDDH13基因组的TEs注释可用于不同苹果基因型更多TEs多态性的动态活性和功能影响的详细研究。苹果果实颜色的进化非常重要也非常有趣。在本研究中,我们在MdMYB1启动子上游UTR区域发现了一个redTE插入与红色果实着色相关。redTE被认为是一种增强子,可通过降低光响应阈值来控制红色果实着色。没有这个增强子,栽培品种的果实就不能有效的产生花青素。这种现象很好的解释了为什么非红皮品种在强光下仍然呈现微弱的红色。此外,TEs特异位点也可用来追溯物种的遗传关系和起源。世界范围的苹果遗传学多样性研究和谱系记录表明一个黄皮品种Golden Delicious(1916年)和四个红皮品种[Coxs Orange Pippin (1850), Red Delicious (1880),Jonathan(1826年)和McIntosh(1870年)]是现代苹果育种的共同祖先。这四个红皮品种包含redTE插入(Fig.5b),这表明它们有共同的亲本。值得注意的是,M. sieversii也含有redTE,表明redTE可能起源于它在新疆的原始野生祖先。尽管最近的基因组重测序揭示了新疆的M. sieversii是一个古老的生态型,与苹果的驯化没有直接关系。中国具有2000多年的栽培史的Huacaiping品种是从新疆野生苹果驯化而来,含有redTE,这暗示红苹果曾经沿着古老的丝绸之路向西和向东延伸。这个结果与驯化苹果的起源和历史的地理调查以及育种研究相一致。此外,从redTE诱导突变祖先的红苹果在人工选择上越来越受欢迎。有趣的是,最近一项关于血橙的研究表明这两种不同的TE插入在控制冷诱导的Ruby表达方面产生了类似的效果,而Ruby可以进行调节果实的颜色。这一发现增加了苹果中其他TE插入的可能性, 其着色效果还没有明显特征。是否有类似的redTE插入增强MYB在梨或蔷薇科的其他水果中的转录还有待进一步研究。

由于苹果育种困难且周期长,研究者希望组装一个可用于指导苹果MAS(marker-assisted selection)育种的参考基因组。本研究中,研究者在基因组中发现了大量的结构变异,这将在苹果育种的分子标签开发中发挥重要作用。如,基于redTE的特定标记,是预选目标颜色苹果杂交苗特别有价值的工具,因为它比以前的标记更有效,更精确。这种标记可以通过消除大量的非靶标杂交苗而大大降低苹果育种成本。此外,来自于抗性亲本的HFTH1基因组将为苹果抗寒性和抗病性的标记开发奠定良好的基础,如苹果育种中的分枝环腐病和黑斑病。总之,这个近完成基因组图谱和其他基因组资源将有助于基因和功能标记的挖掘,并支持将研究成果转化为遗传改良,实现可持续的苹果生产。

参考文献

Zhang, L. et al. A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour. Nature Communications 10, 1494 (2019).

论文链接

https://www.nature.com/articles/s41467-019-09518-x

未来组部分高分合作文章

海岛棉、陆地棉的基因组进阶之路

近期,海岛棉(Gossypium barbadense, AD2)和陆地棉(Gossypium hirsutum,AD1)基因组的文章继2018年之后再一次发表在Nature Genetics杂志上。这两种棉de novo基因组文章一波又一波,还能是Nature系列这样的顶级杂志,这是为什么呢?今天来介绍海岛棉、陆地棉基因组的进阶之路及其背后的科学故事~

     

Fig.1 海岛棉(左)与陆地棉(右)

棉花种质资源丰富,群体组成复杂。棉花属共包括46个二倍体(2n=2x=26)棉种和5个已经确认的四倍体(AD1-AD5,2n=4x=52)棉种,所有的二倍体棉种均可能由一个共同的祖先进化而来,这个祖先随后多样化分化成八个基因组,包括A、B、C、D、E、F、G和K。而所有的四倍体棉花物种都是由A基因组物种木本棉(又称亚洲棉)(G.arboreum (A2))和D基因组物种雷蒙德氏棉(G.raimondii (D5))物种间杂交形成。

Fig.2 棉花属系统发育和进化.不同棉花种基因组大小和核型(zhang ,Peng et al 2008.)

2012年8月,棉花重要种质雷蒙德氏棉(Gossypium raimondii)基因组问世[1],为棉花基因组学研究领域提供了有效的参考信息。雷蒙德氏棉的祖先被认为是海岛棉和陆地棉的D基因组供体。同年12月,又一篇棉花基因组文章发表在Nature杂志,揭示棉花基因组多倍化事件及棉花纤维的演化历程[2]。2014年,海岛棉和陆地棉的另一个供体A基因组亚洲棉 (Gossypium arboreum) 全基因组草图也被绘制出来[3]棉花A组和D组基因组测序的完成, 为异源四倍体海岛棉和陆地棉的全基因组测序奠定了基础。

Fig.3 棉花纤维的演化

海岛棉和陆地棉是棉花的主要栽培品种,陆地棉产量高,适应性强,海岛棉产量低,栽培区域性强,仅能在新疆、埃及、美国亚利桑那州等少数干旱地区种植,但是其纤维品质比陆地棉优。基于高质量、高精度的基因组认识棉花的复杂性,进化的多样性,挖掘性状背后的分子机制培育出综合海、陆棉花高产、纤维优良、适应性强的新品种一直是棉花工作者努力的目标。因此,海岛棉和陆地棉基因组备受人们的关注。

Table 1 海岛棉与陆地棉基因组文章列表

2015年4月,两篇陆地棉基因组文章同时发表在Nature biotechnology期刊:

以中国农科院棉花研究所为主的科研人员对陆地棉遗传标准系—TM-1进行了全基因组测序和组装,最终获得了26条染色体[4]。利用比较基因组学方法,首次从全基因组水平揭示了四倍体棉花是由A基因组的祖先和D基因组的祖先通过染色体融合而形成,并初步揭示了四倍体棉花基因组的进化规律。

Fig.4 陆地棉的演化及基因组共线性分析[5]

另一篇文章同样以陆地棉为研究主体,利用Illumina测序平台,结合BAC末端序列和高密度的SNP遗传图谱,成功构建了高质量的陆地棉全基因组图谱[5];解析了四倍体棉花两个亚基因组的非对称进化机制;发现了MYB基因家族中的一个分支在纤维发育中起重要的作用,陆地棉中多个纤维素合酶等糖代谢基因在驯化过程中受到了显著的正选择作用,与棉纤维品质改良有直接关系。

2015年9月,中国科学院上海生物科学研究所公布了海岛棉基因组[6],并通过基因组比较分析方法研究海岛棉超长纤维的演化及特殊代谢机制。

Fig.5 异源四倍体棉花进化的示意图

2018年12月在Nature Genetics上发表的棉花基因组文章[7]又再次提升了海岛棉和陆地棉的基因组组装质量,该研究利用第三代测序技术(PacBioRS II),BioNano光学图谱技术和染色质高级结构捕获技术(Hi-C)进行联合组装。与以前发表的基因组草图相比,该项研究组装的基因组序列在连续性和完整性上有极大提高。通过比较分析,研究者还发现了棉花基因组多倍化后的复杂结构变异,同时定位了与优质纤维相关的基因座。

Fig.6 海岛棉和陆地棉基因组染色体特征

2019年3月,又一篇棉花基因组文章发表于Nature Genetics,其中应用llumina、10Xgenomics及Hi-C技术获得的海岛棉Hai7124及陆地棉TM-1基因组再次提升参考基因组的精度[8]。研究者指出,本次组装在在重复DNA富集的着丝粒区有明显的改善。全基因组比较分析显示,基因表达、结构变异和基因家族扩张是这些物种形成和进化的原因。这些发现有助于阐明棉花基因组的进化及其驯化历史。

Fig.7 海岛棉Hai7124及陆地棉TM-1基因组特征

参考文献:

[1] Wang, K. et al. The draft genome of a diploid cotton Gossypium raimondii. Nature Genetics 44, 1098 (2012).

[2]Paterson, A.H. et al. Repeated polyploidization of Gossypium genomes and the evolution of spinnable cotton fibres. Nature 492, 423 (2012).

[3] Li, F. etal. Genome sequence of the cultivated  cotton Gossypium arboreum Nature Genetics 46,567(2014).

[4] Li, F. et al. Genome sequence of cultivated Upland cotton (Gossypium hirsutum TM-1) provides insights into genome evolution. Nature Biotechnology 33, 524 (2015).

[5] Zhang, T. et al. Sequencing of allotetraploid cotton (Gossypium hirsutum L. acc. TM-1) provides a resource for fiber improvement. Nature Biotechnology 33, 531 (2015).

[6] Liu X, Zhao B, Zheng HJ, et al. Gossypium barbadense genome sequence provides insight into the evolution of extra-long staple fiber and specialized metabolites. Sci Rep. 2015;5:14139. Published 2015 Sep 30. doi:10.1038/srep14139

[7] Wang, M. et al. Reference genome sequences of two cultivated allotetraploid cottons, Gossypium hirsutum and Gossypium barbadense. Nature Genetics 51, 224-229 (2019).

[8] Hu, Y. et al. Gossypium barbadense and Gossypium hirsutum genomes provide insights into the origin and evolution of allotetraploid cotton. Nature Genetics (2019).

Nature Genetics | 八倍体草莓基因组的起源和进化

现代栽培种草莓是两个野生八倍体草莓杂交后的产物,而这两种野生草莓又都是由四个二倍体祖先在一百多万年前融合而来。来自密歇根州立大学的Patrick P. Edger 团队联合加州大学戴维斯分校的研究人员报道了栽培种八倍体草莓(Fragaria×ananassa)染色体级别的基因组组装结果,揭示了八倍体草莓的起源和演化历程。研究在八倍体草莓中普遍鉴定到了每一个二倍体祖先的近缘基因,并且结果支持了八倍体草莓起源于北美这一假说。在对八倍体草莓的四个亚基因组进行动态分析后发现,与其他亚基因组相比,其中一个显性亚基因组保留了更多的基因且基因表达丰度更高,并且在同源染色体交换时存在偏向性。通路分析显示某些代谢和疾病抗性相关基因主要由该显性亚基因组控制,这些发现将作为未来草莓演化和分子育种研究的有力平台。

种植园结出的草莓香甜美味,一直是广受世界各地消费者喜爱的水果,但是小伙伴们知道吗?和野生的四倍体东方草莓或者人工诱导的八倍体小黑麦不一样,栽培草莓中含有天然的八套异源染色体组!有意思的是,融合成为这八倍体基因组的四个二倍体物种,其中两个已经鉴定出来了,而另外两个至今仍然是谜,这就导致八倍体草莓形成的历史进化过程也扑朔迷离。

大家都知道蔷薇科是双子叶植物中的大类,其中的草莓属已有22个种为人们所熟知,因其倍性水平内部和之间的高度可杂交性,自然呈现出从二倍体乃至十倍体的多样性。相较于同源多倍体,异源多倍体更容易呈现多样化的农艺性状,且其中每个亚基因组都包含一个在单核内进化独立的遗传和表观遗传,但是当前研究对亚基因组优势的潜在机制和终极导向还不甚明朗。

那么难点在哪里呢?

由于大尺度的染色体改变和同源基因的交换导致了亲本染色体之间同源基因的乱序和替换,使得异源多倍体系统的分析无法很好的将亲本基因拷贝分配到每个亚基因组上。而选择八倍体草莓则有如下两个优势。一,其四套亚基因组仍包含完整的同源染色体子集,大大简化了同源染色体的分配;二,二倍体祖先物种现生近缘种的基因序列(可能仍存在与八倍体草莓中)能用于将同源染色体精确划分到各自亲本亚基因组中。同时,要充分利用草莓作为研究异源多倍体的模型系统,并为确定生物学和农业上重要的基因和应用基因组育种方法提供一个平台,需要一个高质量的八倍体参考基因组。

因此,本研究选取八倍体草莓通过PacBio、10×Genomics和Illumina等平台覆盖了615×的基因组数据,最终组装出0.81G的基因组、包含28条染色体水平的pseudomolecules,约占到预估基因组大小的99%,同时使用其遗传图谱进行校错并通过野草莓(Fragaria vesca)进行同源染色体鉴定。

研究者还注释了108087个编码蛋白的基因以及30703个编码长链非编码RNAs(LncRNAs)的基因,并在注释中鉴定到了高等植物数据库中99.17%的核心基因(1440个),证实了组装的优质。另外,研究也进行了重复元件如DNA转座子、LTR-RTs以及非LTR反转录转座子等的注释,分析发现转座元件(TE)占到了基因组约36%,而其中LTR-RTs丰度最高,占约28%。最后,对质体和线粒体基因组的组装注释也体现了组装的完整度。

图1 二倍体和八倍体草莓基因组的共线性(a. 本研究中的八倍体草莓和二倍体的F. vesca基因组宏观共线性比较,红色为F. vesca,紫色为F. nipponica,蓝色为F. iinumaeF. viridis 是绿色;b. 1号染色体四个同源拷贝的基因保留模式,颜色编码同a。c. 二倍体F. vesca和八倍体草莓的四个同源区在1号染色体某区域上的微观共线性比较)

起源与演化推断

系统发育分析最重要的切入点其一是物种的选取具有代表性,其二是包含足够的遗传信号。本研究从头组装了31个已描述的二倍体草莓转录组,预测出了19302个直系同源核基因用于鉴定祖先种,是草莓属目前遗传信号最丰富的分子系统发育分析。

①研究揭示了前人未知的两种二倍体祖先,结合地理分布、历史事件和遗传印记推断出了八倍体草莓形成的过程,详见图2。

图2 八倍体草莓的进化历史(图中标识了八倍体草莓的二倍体祖先现生亲缘种、推断的中间四倍体、六倍体祖先和北美现生八倍体野生种,每种二倍体祖先颜色和图1一致)

②系统发育分析表明Fragaria iinumaeFragaria nipponica是四种现生二倍体祖先的其中两个种,为日本特有,在地理分布上毗邻中国的所有五个四倍体种。

③第三个为分布于欧亚的二倍体Fragaria viridis,与独有的六倍体种Fragaria moschata在分布上部分重叠,研究据此假设四倍体和六倍体是从二倍体到八倍体进化的中间产物,该假设也得到了之前研究的支持。

④研究鉴定到的第四个种为F. vesca subsp. Bracheata,仅分布于从墨西哥到不列颠哥伦比亚的北美西部。

⑤系统发育结合现存种的地理分布推断八倍体草莓起源于北美,而F. vesca subsp.Bracheata极有可能贡献了八倍体草莓形成的最后一个二倍体。该发现与之前研究一致,也得到了本研究卡麦罗莎(美国二十世纪九十年代育成草莓品种,长势健旺)质体基因组分析的证实。因此,可以推断六倍体祖先可能从亚洲传入北美并在约1.1个百万年前与F. vesca subsp. Bracheata的当地种群杂交。

异源多倍体的亚基因组优势

大部分古老的异源多倍化事件后,其中一个亚基因组通常会呈现主导优势,如基因含量更高、高表达以及更强的选择压力等,且和亚基因组含量的差异及TEs(转座元件)调控相关(基因表达水平与其附近的TEs密度呈负相关),因此可以基于TEs富集和分布来预测基因表达优势和单个同源染色体水平上最终的基因缺失。

基于上述鉴定的二倍体近亲,研究对四个亚基因组进行了动态分析,鉴定出F. vesca祖先种为优势亚基因组的供体(见图1),保留了多出20.2%的蛋白编码基因和多出14.2%的lncRNA基因,并比其他同源染色体少了19.5%的TEs。相较于其他亚基因组,F. vesca同源染色体基因附近的TEs密度也最低,同时其串联基因重复也多出约40.6%等。这些都表明了F. vesca亚基因组承受了更多的选择压力以保留基因,包括串联重复基因。

研究还分析了影响草莓产量的疾病抗性基因(R genes)。进来研究证实很多R蛋白通过整合的诱饵结构域(decoy domains)识别病原体效应物,而F. vesca基因组编码了20个这种蛋白模型。八倍体草莓扩张了105个融合到R蛋白结构上分化的结构域且具有潜在的整合诱捕功能。

另外,研究还发现不同于F. vesca祖先种,其他祖先种染色体部分区域保留了更多的祖先基因,这些区域是同源染色体交换(HEs)或基因转化事件的产物。值得注意的是,大部分八倍体草莓的HEs涉及显性F. vesca亚基因组对应区域的同源染色体替代。如系统发育和比较基因组分析显示相对F. iinumae,HEs呈现7.3×的偏向于F. vesca亚基因组,但它们并不是像以前报道的那样是单向的。这些结果都表明,F. iinumae亚基因组部分已被F. vesca亚基因组所取代。当然,结果也表明F. vesca亚基因组在草莓抗病性上起主要作用,同时其他三个二倍体祖先种也贡献了抗性机制的多样性。

最后研究还进行不同器官的基因表达分析,而结果证实显性F. vesca亚基因组确实有更高的表达,也支持了亚基因组表达优势受亚基因组之间TEs密度差异影响的观点(图3)。

图3 亚基因组表达优势(灰色柱状图是所有可测试的同源对的表达偏倚,即HEB,可测试的同源对标准基于共线性、>80%的系统发育自展支持率以及转录组数据中至少包含一条read来判定;红色表示同源对显著偏向F. vesca同源基因,偏向三个二倍体祖先种中的一个则用黑色表示)

此外,研究还揭示八倍体草莓中的大多数HEs最终都会导致显性F. vesca亚基因组替代其他亚基因组其中一个对应的同源区域。因此,图3中观测到的F. vesca亚基因组同源基因表达倾向低估了转录组范围的表达优势(占所有转录本的68.7%)。这种偏向导致某些生物学通路如本研究中包括草莓风味、颜色和香味等的代谢通路很大程度上由一个显性亚基因组控制。

总之,本研究通过PacBio、10×Genomics和Illumina等平台的八倍体草莓数据组装出了染色体级别的基因组,并据此重建了八倍体化的进化历史,关键还鉴定出了其每一个二倍体祖先种。研究重点分析了F. vesca亚基因组在四个祖先种亚基因组中占主导地位的现象,这对其他异源多倍体物种的研究有着非常好的借鉴意义,同时也为草莓等栽培经济作物的研究提供了一个可行的分析案例。

参考文献

Edger P P, Poorten T J, VanBuren R, et al. Origin and evolution of the octoploid strawberry genome[J]. Nature genetics, 2019: 1.

参考级基因组如何组装?野生大豆告诉你

有效追踪基因组变异、映射重要数量性状位点(QTLs)、发现新的等位基因需要一系列的遗传资源信息,而野生种质是最重要的遗传资源。尽管目前已有大豆品种的参考基因组发表,然而这些对于解决有关大结构变异或复杂基因组重排分析等问题还远远不够。香港中文大学生命科学学院大豆研究中心林汉明教授团队联合多家单位,应用PacBio、Bionano 及Hi-C等多种技术手段,获取了高质量的参考基因组级别的野生大豆W05基因组,为大豆种质资源研究及育种改良奠定了基因组学基础,研究成果于近日发表于Nature Communications。

Fig.1野生大豆与栽培大豆种子

方法与结果

基因组组装
研究者对野生大豆W05的组装给出了详细的组装流程(Fig.2)。研究者使用PacBio测序数据进行校正及初步de novo组装,随后采用Illumina数据进行polishing。Bionano双酶切数据辅助构建scaffold,Hi-C数据的加入使序列定位到染色体上,构建superscaffolds。最终组装获得的基因组大小为1013.2Mb,contig N50 3.3Mb,scaffold N50 50.7Mb。

Fig.2野生大豆基因组de novo组装流程

基因组注释
研究者分别对不同生长时期及发育阶段的野生大豆样本进行RNA-Seq和PacBio Iso-Seq测序,并结合RNA-Seq/ Iso-Seq转录组数据,使用同源蛋白预测及从头预测等方法对蛋白质编码基因和可变剪接异构体进行注释。注释获得55,539个蛋白编码基因,对应89,477个蛋白质编码转录本。此外,在W05基因组中,还发现了288个miRNA,1,988个snRNA及147 个rRNA(Table 1)。

种皮颜色的遗传变异
为了鉴定驯化过程中引起种皮颜色变化的遗传变异,研究者将W05基因组与Wm82及ZH13基因组进行比较分析。分析结果显示,Wm82和ZH13紧邻CHS基因簇的位置都发生了复杂的染色体重排,包括倒位及重复;与W05相比,Wm82的I locus 区发生了复杂的倒位现象,这与大豆种皮颜色的转变有关(Fig.3)。

Fig.3控制大豆种皮色素沉着的结构变异

与栽培种的结构差异分析

转座元件(TEs)是一种重复的DNA序列,是植物基因组的重要组成部分,是自然选择和人工选择的重要变异源。基于同源分析和从头预测,研究者发现W05基因组中53.9%的序列为重复元件,其中最主要的重复类型为LTR。通过将基因组进行比较分析,研究者在W05、Wm82_v2和ZH13中分别鉴定出了~2300–3000个TE插入事件。其中,W05基因组中分别发现了419和400个有别于Wm82_v2 和 ZH13的转座插入事件。

高质量的基因组使精确的结构变异比较分析成为可能。研究者通过比较分析发现,与W05相比,Wm 82_v2和ZH13分别有32个和12个大的结构变异,其中最大的结构变异为发生在11号和13号染色体上的染色体间相互易位。研究者还发现控制蔓生长、单株种子数和单株荚数的QTL位点位于易位区。

Fig.4 I locus区种皮色素沉着的倒位现象

此外,研究者还利用光学图谱(OM)数据对发现的结构变异与其他的大豆品种进行比较分析及验证。对I locus 区的比较分析表明,有色种皮的大豆如W05在该区域未发生倒位。而浅色种皮的Wm 82和ZH13具有相同的倒位现象(Fig.4)。

野生种质的高质量参考基因组提高了复杂基因组群体遗传分析的精度。在本研究中,研究者展示了W05参考基因组在遗传变异分析、比较基因组和进化研究中的重要作用,例如大结构变异的鉴定、QTL、基因和等位基因的识别。同时还强调了高质量参考基因组与光学作图技术相结合在研究多个种质结构变异中的优势。

参考文献:Xie, M. et al. A reference-grade wild soybean genome. Nature Communications 10, 1216 (2019).

全面升级!未来组PacBio 宏基因组V3.0震撼来袭!

比起其它的地球生命体,人类对微生物的了解可谓“冰山一角”。宏基因组学作为新型研究工具,可以完整获得环境样本中全部微生物的物种信息和功能基因信息。但是,二代短reads 高通量测序很难有效获得微生物群落各方面的特性。基于单分子实时测序(SMRT)技术的PacBio 平台全面升级以后,序列长度、单cell 产出以及CCS reads 准确度明显提升,使在种甚至亚种水平深入解析物种组成、基因和功能注释、比较基因组分析、进化分析等成为可能,进而从根本上阐明微生物群落在生态系统中发挥作用的机制。未来组紧跟PacBio官方升级脚步,PacBio宏基因组测序项目也迎来了全面升级。

全面升级

系统升级
Sequel 系统软件升级至V6.0,配套试剂升级至V3.0
更长读长,平均读长达到30-40Kb
更高产出,单Cell 产出25-40Gb
更高准确度,CCS reads 准确度达99.999%

指标升级
直观反映群落组成和群落功能
高丰度菌株基因组完成图
DNA 甲基化修饰分析

服务升级
极速服务周期,从样品到标准分析报告仅需4周

研究策略

技术路线

未来组宏基因组数据展示

Chemistry V2.1 vs V3.0
与V2.1 试剂相比,V3.0 试剂下机有效CCS reads、单个cell 产出及高质量CCS 序列数量都明显增加。

NGS vs PacBio
Mock metagenomic sample ——20 株菌,总共基因组大小61,499,437bp

部分分析数据展示
某肠道微生物样本,基于Q20 以上的CCS 序列进行宏基因组组装:

基于有参分Bin 及无参分Bin 分别获得7 个和9 个单菌基因组草图,最高完整度分别高达98.29% 和95.82%。以Bin13 为例,进行DNA 甲基化修饰分析,统计结果如Table 2 所示。

分析图例展示

微生物是世界上存在范围最广泛的生物,从与人类生存息息相关的陆地、空气、水体,到特殊的极寒极热地区,再到工业生产、昆虫肠道、植物根际,以及人类皮肤、肠道等等,尚有许多关于微生物与环境互作的秘密等待人类去探索。未来组应用第三代长读长PacBio测序技术,将为您展示最全面最直观的微观世界全景图。还等什么,抓紧时间联系我们吧!

延伸阅读:
讲真,DNA甲基化多样性还需长读长技术来搞定

先睹为快!未来组Bionano DLS实测数据首发

DLS标记技术(Direct Label and Stain)在2018年年初由Bionano genomics公司正式推出,相较于传统的NLRS技术,其优势在于不对基因组DNA双链进行切刻、不产生任何物理损伤即可完成标记,避免了之前NLRS标记技术中由于DNA正负链切刻位置重叠而造成的双链DNA片段的断裂,提高了基因组组装的精确度和连续性,能够组装染色体臂长度和整条染色体长度的图谱,还可以提高基因组结构变异检测的灵敏度。下面将与大家一起分享武汉未来组多个Bionano DLS的实际项目经验。
未来组Bionano DLS实测数据展示

武汉未来组基因组测序中心拥有新型Bionano Saphyr平台,已完成Bionano测序分析项目上百个,具有丰富的实际操作经验和超强的数据分析能力。目前基于DLS标记技术,实现了高效率、高质量的数据产出(Figure 1)。

Figure 1未来组某植物Bionano实测数据统计

未来组Bionano DLS辅助基因组组装案例展示

未来组成功在多个基因组组装项目中应用Bionano数据辅助提升基因组组装质量,辅助基因组组装提升能力可达百倍级别。如某植物基因组,辅助组装前contig N50为0.27Mb,以53X的有效覆盖数据辅助组装以后,scaffold N50达到38.9Mb,提高了144倍(Table 1)。

Table 1未来组Bionano DLS辅助组装项目案例

新技术DLS的推出,使得Bionano可以在基因组研究领域中得到更广泛的应用。在基因组结构变异研究方面,DLS标记技术超高的灵敏度和超强分辨率能够更加特异性的揭示基因组真实结构;在基因组图谱研究方面,DLS标记技术帮助研究者更快速、更高效地提高基因组组装的准确性和完整性。Bionano DLS将成为世界各国基因组研究者不可缺少的研究工具,未来组积累的丰富项目经验为您的基因组研究保驾护航。

附:近两年发表的三代+Bionano辅助组装基因组高分文章(“*”为未来组参与合作项目文章)

讲真,DNA甲基化多样性还需长读长技术来搞定

DNA甲基化是一类重要的表观遗传修饰,除真核生物外在多种原核生物中也有发现,如保护宿主细胞免受噬菌体或细胞外DNA入侵的序列特异性限制性修饰(RM)系统,已经成为生物技术研究的重要工具。

此外,原核DNA甲基化还有调节基因表达、错配DNA修复以及细胞周期等功能。但是,目前大部分研究者仅局限于实验室可培养稀有原核生物的研究上,因此对原核生物甲基化系统多样性的了解知之甚少。基于单分子实时测序(SMRT)技术的PacBio平台可以说是DNA甲基化研究者的新宠,像原核菌株中的N6-methyladenine (m6A),5-methylcytosine (m5C)和 N4-methylcytosine (m4C)等修饰都已有使用该技术进行解析的案例。尤其是其环状一致性(CCS)测序模式能够对同一模板生成整合多条序列的单条超长read,从而无需进行无性系种系培养,目前CCS仅用于部分鸟枪法宏基因组研究,还没有应用到宏表观基因组或环境微生物群体的直接甲基化分析上。

近日,来自东京大学的Satoshi Hiraoka等人使用PacBio CCS技术研究日本最大的淡水湖——琵琶湖微生物群落的鸟枪法宏基因组和宏表观基因组,绘制了19个细菌和古细菌草图基因组,并揭示了22种甲基化motifs,其中9种是首次发现,还通过计算预测和实验验证了与之相关的4种甲基转移酶(MTases),其中2种被发现能够识别新的motif序列。该研究表明宏表观基因组作为一种强大的方法可用于鉴定自然界中未探索的多种原核DNA甲基化系统,研究成果发表在Nature Communications上。

采样测序和分类分析

采集琵琶湖不同深度水样,PacBio测序得到的数据和环状一致性分析统计见表1,其中90%的CCS reads都是高质量的。

通过Kaiju和NCBI数据库对CCS reads进行分类,结果见图1。其中,>88%鉴定到门,>56%鉴定到属,高于同样计算方法的基于Illumina测序的鸟枪法宏基因组。在门水平上,变形菌门在两种样本中均占主导,其次为放线菌门、疣微菌门和拟杆菌门(Fig.1)。绿弯菌门和奇古菌门在深水中尤其丰富,古生菌在浅水中尤其稀少。后鞭毛生物为最优势的真核生物,其次为囊泡虫总门和不等鞭毛类。而病毒中占优势的依次为有尾噬菌体目和藻类去氧核糖核酸病毒科。研究结果与之前淡水湖微生物群体研究一致,表明PacBio平台和短读长测序技术平台一样适合进行宏基因组分析。

图1 CCS reads的系统发育分布,a、b、c分别代表域、门、纲的富集推断,忽略真核生物和病毒reads

宏基因组组装和基因组binning

研究从浅、深水中分别组装出554、345条contigs,对应的N50为83kb和76kb,最长contig分别为481kb和740kb,远远超过了之前将CCS应用于鸟枪法宏基因组分析活性泥微生物群体的组装结果。然后使用MetaBAT进行binning,浅水和深水分别有52.3%和29%分配到15个和4个bins上,且有46.9%和44.8%的CCS reads可以map到草图基因组上(见图2和表2)。


图2 对组装的contigs进行基因组binning。每一种颜色和大小的圆圈代表所属的bin和序列大小。

对每个bin进行草图基因组组装,基因组完整性在17%-99%之间,污染均低于3%,基因组大小在1.0-5.6Mb之间,GC含量从29%-68%,平均N50为24kb,最大1.67Mb。19个草图基因组划为7个门,其中7个推断为放线菌门、4个为疣微菌门,另外,最丰富的变形菌门只在浅水中装出2个草图基因组,深水甚至没有装出来。总之,系统发育重建很可能反映出了琵琶湖中优势、但尚未培养的微生物谱系。

宏表观基因组分析

从10个草图基因组中检测出29种候选甲基化motifs,甲基化比例从19%-99%(可能低于真实的甲基化水平),见表3,其map上的subreads覆盖度从28.7×到297.3×。

可能由于单个甲基化motif检测不完整或包含在该基因组中近缘谱系间的异质motif序列,变形菌BS12基因组中的3个motifs包含了相似的序列,而拟杆菌BS15基因组中则观测到了回文motif和5个互补motif对,值得注意的是,绿弯菌门的3个草图基因组——BS1、BS3和BD1共享相同的motif序列集,这可能是由于进化共享的甲基化机制引起。大体上,每个草图基因组的contigs都呈现相似的甲基化模式,也为基因组binning提供了表观基因组上的支持。

当然,也有至少9个motifs没有匹配上任何现有的REBASE序列上,这也暗示环境原核生物DNA甲基化体系中还存在着诸多没有被挖掘的多样性,包括一些没有培养过的菌株。

对应检出甲基化motif上的已知MTase

研究还尝试鉴定能够催化检出甲基化motif甲基化反应的MTase,对MTase基因进行系统性的注释。首先通过相似性搜索从9个草图基因组中鉴定到20个MTase基因,找到了丰度最高的Type II MTase等,以及编码REases等蛋白的基因,20个MTase基因中有7个和通过宏表观基因组分析的结果一致,见表3和表4。如奇古菌BD3基因组包含了两个MTase,和识别AGCT和GATCmotif序列的宏表观基因组分析结果高度统一,说明对于环境原核生物甲基化系统的鉴定,宏表观基因组分析是行之有效的手段。

未挖掘的原核生物甲基化系统多样性

20个MTases中也有13个和宏表观分析鉴定的酶序列不相似(表3和表4),说明揭示环境原核生物多样性甲基化体系也需要借助直接观测。研究以拟杆菌BS15基因组、疣微菌BS8、BS10和BS6基因组以及消化螺旋菌BD2基因组、变形菌BS12基因组等为例,从中均鉴定出数目不等的MTases和甲基化motif,但也都出现和报道的MTase或近缘MTasemotif序列不一致或完全匹配不上的情况,甚至也有检出甲基化motif但未检出MTase基因的个例。研究者推断可能的原因是基因组完整度不够,也有可能是这些MTase基因和可培养菌株中的MTase存在分化,还有可能是它们属于新的类群。

含新甲基化motif的MTases实验验证

对于宏表观基因组分析与motif序列高度相似的MTases,研究实验验证了其中四种的甲基化特异性,构建每一个携带人工合成MTase基因的质粒,转导到大肠肝菌细胞中强制表达,然后通过REase消化观察独立质粒DNA的甲基化状态,甚至个别还进行了PacBio测序来检测两个MTase基因各自转化的大肠杆菌染色体DNA甲基化情况。最后,研究鉴定出一系列新的、具有甲基化特异性的MTase基因,并对其表达的蛋白进行命名。

探索自然界中原核生物甲基化系统的
宏表观基因组

一系列的分析证实,PacBio SMRT测序结合CCS模式进行宏表观基因组的分析是非常有效的,较基于序列一致性和基于培养的甲基化系统分析以及短读长宏基因组分析都有显著的优势。

CCS reads让宏基因组组装、binning和基于序列的蛋白分类都变得更容易,最重要的是,该方法揭示了多个甲基化motif,包括环境原核生物中的一些新的motif和本研究中鉴定出的4种MTases。当然,由于需要更深度的覆盖,SMRT测序目前应用于更多种、更复杂样本的宏表观基因组还略显不足,检测到的DNA甲基化类型尚有限,但是要捕获足够的reads以构建稀有样本的长contigs并检测甲基化motif本身难度还是很大。同时,Oxford Nanopore也可以提供基于另一种原理的检测技术。

本研究充分说明即使亲缘关系极近的菌株之间甲基化motif和MTase也会有很大的差异,而且MTase除对抗噬菌体外,还发挥着不为人知的适应性作用。值得注意的是,宏表观基因组分析可以用于多种生物信息分析上面,也能够增进人们对环境原核生物甲基化机制及其应用的了解,而这里新鉴定的MTase也有其他生物技术上的应用。

怎么样?阅览了这篇文章,是不是认可了DNA甲基化多样性还需长读长技术来搞定呢?武汉未来组是中国最早一批引入第三代长读长测序技术的生物科技公司,基于多年的摸索研发经验,已经基于Pacbio CCS reads搭建了成熟的分析流程(见下图),完成了多个环境微生物宏基因组的分析项目,积累了丰富的经验。


未来组宏基因组分析流程

13.5Kb CCS reads升级人类基因组变异识别和组装

短读长测序技术因准确度较高,常应用于单核苷酸变异(SNVs)和小型插入缺失(indels)的识别上,但是较少进行从头组装、单体型定相和结构变异(SVs)检测等远程应用上。基于单分子检测的长读长测序技术通过read-to read的校错也可以达到高准确度,只是计算量较大,并且在校正过程中错误映射的reads和混合单体型中仍存在错误,故较少应用于SNVs和indels识别。同时,人类基因组仍需要结合各种测序技术全面覆盖各类基因变异,而长读长测序技术尤其是基于SMRT测序的PacBio平台正好可以通过CCS来进行高精度的变异捕获。

来自PacBio的科学家Aaron M. Wenger联手多家机构的研究人员选取了理想的基准基因组样本HG002进行长CCS reads的表现分析以验证其在大、小片段变异检测、基因组组装和单体型定相等方面上的优势,研究结果已于1月发表于bioRxiv预印本期刊上,组学君再为大家细读好文。

CCS文库制备,测序及reads质量验证

长度紧密分布在15Kb的SMRTbell文库用于CCS测序,仅保留准确度高于Q20(99%)的reads,生成的89G数据平均读长13.5±1.2Kb,预估准确度中位数为Q30(99.9%),平均值Q27(99.8%),且与GRCh37一致性准确度高。

图1 HG002的高精度长读长测序(a. 多轮DNA模板测序生成CCS序列,b. 不同测序轮数得到的CCS序列质量预测,c. CCS reads的读长和预测质量)

研究统计了CCS reads和HG002参考基因组的不一致,其中3.4%为错配,4.6%为非均聚物背景下的indels,92%为均聚物背景下的indels。通过read-to-read比对的方式计算错误率发现与预估的CCS reads质量一致,平均reads精度高达99.8%。同时,研究还将其映射到GRCh37上,匹配度达97.5%,还发现对应的NGS短读长数据上报道的193个医学相关基因可以在CCS数据上映射152个,包含 CYP2D6、GBA、PMS2和STRC等基因。

图2 使用CCS reads的人类基因组可映射性(a.不同映射质量阈值下NGS和CCS数据对GRCh37人类基因组的覆盖度,b. NGS和CCS数据对先天性耳聋基因STRC分别在以10为映射质量阈值下的覆盖度,c. 13.5Kb CCS reads对193个人类基因的映射提升,这193个基因之前使用NGS数据进行映射发现与医学相关且存在问题)

小片段变异检测和定相

GAKT用于SNVs和小型indels识别,相较于基准基因组,SNVs精度达99.468%,召回了99.559%;而indels的精度和召回率分别为78.977%和81.248%。针对SNVs和NGS数据进行比较,识别的indels相对少一些。研究还通过一种叫Google DeepVariant的模型进行数据模拟,发现相较于Illumina数据,CCS数据可以大大提高SNVs和indels的准确度和召回率。

接下来,研究又使用WhatsHap来定相DeepVariant识别的结果进行定相以确定CCS reads能够生成单体型所需的高精度变异识别和远程信息。几乎所有(99.64%)的常染色体杂合变异都被定相到19215个区域上,N50为206Kb。定相区域大小分布几乎和理论上的极限完全匹配,而这个极限是通过生成变异之间超过平均CCS读长13.5Kb的间隔来评估的,这说明定相区域大小受HG002基因组读长和变异量所限,而非变异识别的覆盖度或质量。

图3 使用CCS reads进行变异识别和定相(a. 使用DeepVariant进行的SNV和indels识别和基准基因组的一致性,b. 杂合位点的DeepVariant变异识别定相和使用13.5Kb reads对HG002理论定相的比较,c. 整合的CCS SVs识别和基准基因组一致性,d. 通过变异大小进行上述一致性的比较)

用单体型定相升级小片段变异检测

GATK和DeepVariant在识别变异时都不直接并入远程单体型相位信息。研究对CCS reads基于GIAB的三相变异对进行单体型标记,然后使用DeepVariant模型对reads按单体型分选通过的顺序进行模拟,发现对于SNVs的识别表现和原始的DeepVariant模型相近,但是对于indels的识别却有着显著的升级:精度达97.835%且召回率达97.141%(见表1)

表1 CCS reads小片段变异识别的表现

CSS reads的SVs检测

≥50bp的插入和缺失SVs使用两款基于read映射的工具pbsv和Sniffles,使用paftools分析Falcon和Canu的从头组装来升级更大片段变异的识别,研究发现使用SURVIVOR生成整合的callset对于<1kb和≥1kb的变异以及插入和缺失的表现都相仿,凸显了基于映射的和基于组装的SVs识别之间的互补性(见图3c和d)。

另外,研究还对Illumina短reads和10×Genomics的连接reads(linked reads)进行SVs识别比较,发现所有的短reads和链接reads无论在准确度还是召回率上面都不及CCS callsets。

从头组装

使用了Falcon、Canu和wtdbg2对CCS reads分别进行从头组装,跳过原始的read-to-read校错步骤的组装结果连续性都很好,contig N50从15.43到28.95Mb,其中Canu因为将一些杂合位点的等位基因算作分离的contigs上而组装的基因组大于预期(表2)。同时,研究选择了HG002亲本的短reads来鉴定对一方亲本唯一的k-mers然后基于单倍型对CCS reads进行分区(trio bin),最后选择51-mer的binning进行组装。

表2 CCS reads从头组装统计

三款组装软件独立对父系和母系reads进行组装也都得到高连续性的近完整组装结果,N50从12.10到19.99Mb,基因组从2.67到3.04Gb。父母系的组装中都鉴定出从95.3%到98.2%的单拷贝人类基因(表2),并且无论是混合组装还是一方亲本的组装都与HG002基准基因组保持高度一致,甚至大大超过了之前发表的使用PacBio长reads和用Illumina数据打磨过的ONT数据组装结果(图4a)。

此外,研究还组装到了跨度超60Mb的大片段重复,较之前提升了20%的连续性,以及解析了一致性99%-99.5%的15kb重复片段(图4b)。

图4 read准确度对从头组装的影响

变异识别和从头组装需要的覆盖深度

研究者调取部分数据进行分析,发现对于SNVs,使用DeepVariant进行准确度和召回率超过99.5%的识别仅需15×的覆盖,而对于indels,超过90%的准确度和召回率需要17×。再者,使用混合单倍型的wtdbg2的组装,只要覆盖度高于15×,就可以保持高于Q42的一致性准确度等。

基准基因组校错和扩展

最后,研究对SVs仍处于草图形式的基准基因组进行校错,如鉴定到小片段变异中,31个基准基因组中的均聚物不一致处有29个被误为正确的;而在一项Illumina全基因组病例研究中,仅有很少的假阴性SNVs和indels以及假阳性indels和CCS callset相一致,通过人工处理后评估基准基因组中有2434个(95%的置信区间为1313-2611)错误可以通过CCS reads来校正。

对于SVs,基准基因组精确度比较高,但不一定完整。将CCS DeepVariant callset加入基准基因组小片段变异整合流程中可以将基准区域扩展1.3%相当于418875个变异。而18832个常染色体变异识别中仅有9232个和基准区域相重叠,也表明并入CCS变异识别可能可以将基准基因组中变异的数量翻2倍以上。

结语

读长和准确度宛如测序天平的两端,这份研究开发出了一种新的流程力图让天平达到完美的平衡:研究基于单分子环状一致性序列(CCS)生成准确度达99.8%、平均读长达13.5Kb的长reads,还将该流程运用到已精确解析的人类基因组(HG002/NA24385)上。

通过优化现有工具对HG002/NA24385进行变异检测,召回了超过99.91%的SNVs、95.98%的indels以及95.99%的结构变异。另外,研究还评估了和参考基因组中2434处不一致的可纠正性错误,且几乎所有(99.64%)检测到的的变异都可以定相到单体型上,而从头组装得到contig N50超过15Mb、一致性达99.998%的高连续性、高精度基因组。将CCS reads匹配上短reads以进行小片段变异检测,对于能检测到结构变异和相似组装连续性的区域,CCS reads明显比含噪音信号的长reads有更高的一致性。