点击蓝字 关注我们
Nature | 丹麦环境微生物组图谱:Microflora Danica
丹麦环境微生物组图谱:Microflora Danica
研究论文
● 原文:Nature(IF 48.5, 中科院双一区Top)
● DOI: https://doi.org/10.1038/s41586-025-09794-2
● 原文链接:https://www.nature.com/articles/s41586-025-09794-2
● 发表日期:2025-12-03
● 第一作者:Caitlin M. Singleton
● 通讯作者:Mads Albertsen (ma@bio.aau.dk)
P. H. Nielsen(phn@bio.aau.dk)
● 主要单位:
奥尔堡大学化学与生物科学系,微生物群落中心,
昆士兰科技大学生物医学学院,微生物组研究中心,
维也纳大学微生物学与环境系统科学中心
摘 要
在过去20年里,关于揭示支撑自然和人类相关环境中各种过程的微生物组方面取得了长足进步。近期的大规模宏基因组调查记录了海洋、人类肠道以及整个地球上微生物生命的多样性,相关汇编包含了数千个公共数据集。然而,尽管这些研究范围广泛,但往往缺乏功能信息,且采样地点通常分布稀疏、分辨率有限或缺乏元数据。在此,我们引进了 Microflora Danica——这是一份丹麦环境微生物组图谱,包含了 10,683 个鸟枪法宏基因组(shotgun metagenomes)和 450 个近全长 16S 和 18S rRNA 数据集,并关联到一个五级生境分类系统。我们的研究表明,虽然受人类干扰的生境具有较高的 α 多样性(alpha diversity),但物种会重复出现,揭示了一种隐藏的同质性。这凸显了自然系统在维持总物种(γ)多样性(gamma diversity)方面的作用,并强调了建立国家基线以追踪微生物对土地利用和气候变化响应的必要性。因此,我们将数据集探索的重点放在了硝化微生物(nitrifiers)上,这是一个与气候变化密切相关的功能群,且对丹麦主要的土地利用方式——农业——至关重要。我们鉴定了几种编码硝化关键基因的谱系,并揭示了土地干扰对那些已被充分研究以及尚未被表征的硝化微生物群丰度的影响,这对氧化亚氮(N2O)的排放具有潜在含义。Microflora Danica 为解决微生物生态学中关于什么驱动微生物多样性、分布和功能的基础问题提供了无与伦比的资源。
全文解读
引 言
1752年,以对自然科学和应用艺术持慷慨态度而闻名的丹麦国王弗雷德里克五世发起了《丹麦植物志》项目。这一无与伦比的杰作历时122年才完成,成为世界上最独特的自然史著作之一。该项目共完成了3000多幅花卉植物版画和54册图谱。正如所有鉴赏家一致认为的那样,全世界最终都能从这门科学的扩展中获益,它对人类福祉至关重要,若没有它,医学和经济学将失去重要优势。2019年我们启动了 Microflora Danica(MFD)项目,旨在对丹麦的微生物组进行编目,希望丹麦的微生物区系也能同样得到研究,利用其丰富资源为科学发展做出贡献。
结 果
MFD数据集
MFD数据集包含10,683个样本,旨在捕捉丹麦微生物的多样性和地理覆盖范围,这些样本与Illumina霰弹枪式宏基因组DNA测序(平均每个样本4.5 Gb,总48.2 Tb)相关联。此外,该数据集还包含了1490万个细菌序列(中位数4528碱基对)和1340万个真核生物rRNA纵子序列(中位数4035碱基对),以及640万个几乎全长的细菌16S rRNA基因序列(中位数1355碱基对)。这些数据来自一小部分样本(分别为450个和412个),反映了样本多样性,同时保持了更广泛数据集的地理覆盖(Fig. 1a)。样本与GPS坐标以及高度策划的五级本体论(MFDO)(即栖息地分类系统)相关联 (Fig. 1b),可以与其他本体论(EMPO 3,7,Natura 2000和EUNIS9)相关联。栖息地本体包括样本类型、区域类型以及最多三个逐步具体的栖息地描述层级:MFDO1、MFDO2和MFDO3。“自然”区域类型指的是未直接管理或位于城市区域的栖息地。丹麦的景观主要由农业(63.0%)、建筑和基础设施(13.9%)、森林(13.3%)和自然区域(9.2%)以及溪流和湖泊(2.8%)组成。MFDO1栖息地本体层代表28个不同类别并反映了田地(即耕地; 3,003个样本)、草原地貌(1,393个样本)、森林(1,328个样本)和绿地(即城市公园; 711个样本)的主要土地利用情况。采样的广泛性体现在我们对丹麦986个注册湖泊中27%的覆盖。综合来看,数据集、本体论、相关元数据和空间分辨率为探讨微生物生态学中多样性与功能相关的研究问题提供了非凡资源 。
图 1. MFD采样活动与本体论
a,宏基因组和 rRNA 扩增子数据测序深度的平均值 ± 标准差。深度的测量单位是 reads(读长数),但宏基因组除外,其深度以 bp(碱基对)报告。M,百万。b,MFD 样本覆盖了丹麦陆地及其周边水域。地图描绘了用于宏基因组学的样本位置,颜色代表三种不同的样本类型。右上角的插图显示了位于哥本哈根以东、瑞典以南的博恩霍尔姆岛。底图检索自欧盟统计局国家门户网站 EuroGeographics 的行政边界,© EuroGeographics 2025。c,生境本体前三个层级中的样本数量。MFD 生境本体说明了每个类别/分支中数量不等的样本。桑基图报告了本体的前三个层级,分支的粗细与每个类别中的样本数量成正比。仅报告样本数n> 20 且 MFDO1 分类非空的类别。每个生境类别后括号内标注了该类别的样本数量。包含本体所有五个层级的高分辨率桑吉图提供与zendo(https://doi.org/10.5281/zenodo.17162544)
丹麦微生物组的构建
为了促进细菌序列多样性分析,我们使用了从 rRNA 操纵子数据中提取并在 PacBio 平台上测序的近全长 16S rRNA 基因,以及使用唯一分子标识符(UMIs)生成的近全长 16S rRNA 基因扩增子数据。UMI 方法依赖于使用分子核苷酸模板标记,在牛津纳米孔(Oxford Nanopore)测序平台上实现高精度的单分子一致性识别。在模板两端添加 UMI 使得通过生物信息学手段识别并去除 PCR 过程中形成的嵌合体成为可能。
我们结合这些数据调查了细菌序列的多样性和新颖性(见方法和扩展数据图1)。组合后的近全长 16S(V1–V8)rRNA 基因数据集包含 458 个具有生境代表性的样本和 2130 万条序列,其中 605,861 个扩增子序列变体(ASVs)代表了 141,252 个细菌物种(即 98.7% 相似度的操作分类单元 OTUs)(图2a)。
将物种水平的 OTU(按 98.7% 一致性聚类)与 SILVA v.138.1 数据库比对显示,82.5% 来自新物种(一致性 <98.7%)(图2a)。然而,在较高的分类级别上,新颖性的发现率迅速下降,只有 1.9% 的 OTU 属于新科(一致性 <86.5%)(图2a)。这表明,虽然源自温带北欧生境的细菌 16S rRNA 基因序列在公共数据库的较高分类级别上得到了很好的收录,但物种水平的多样性仍大量未被记录。
我们使用了几乎全长的16S rRNA UMI数据集来估算丹麦陆生细菌的丰富度(物种计数)。该数据集包含580万个16S rRNA基因读段和101,423个物种(98.7%为OTU),涵盖309个栖息地代表样本。稀疏分析显示MFDO1级栖息地中物种检测存在潜在差异,但合并数据集中接近饱和,表明大多数物种已被测序捕获。为支持这一点,我们计算了栖息地及泛栖息地群落覆盖率,以估算数据集捕捉细菌物种陆地多样性的程度。我们发现MFDO1级栖息地的群落覆盖范围为0.46至0.90,与采样努力呈强相关性,但整体陆地群落覆盖率为0.98,再次表明物种检测几乎完全。希尔多样性估计显示,陆地MFD中细菌种数(希尔丰富度)的下限至少为114,400种,其中43,447种常见和22,036种优势物种。群落覆盖估计和稀疏分析表明,几乎全长的16S rRNA基因数据集捕捉了丹麦在调查栖息地的总细菌种群,并保守估计丹麦陆地环境细菌丰富度的最低估计为114,400种 。
为了调查真核生物的多样性,我们使用了真核生物 rRNA 操纵子序列。由于包含 ITS1 和 ITS2 区域,这些序列表现出很强的系统发育信号。然而,由于缺乏全面的 rRNA 操纵子参考数据库,我们将分析重点放在提取出的近全长(V4–V9)18S rRNA 基因上,因为这些基因可直接与 PR2 数据库进行比较。
这 1340 万条真核生物近全长 18S rRNA 基因序列被解析为 28,575 个扩增子序列变体(ASVs),代表 12,447 个物种(99% OTUs;补充说明 1)。将物种代表序列与 PR2 数据库比对显示,大多数物种(77%)是新物种(图 2a)。此外,32% 的序列与 PR2 中序列的相似度低于 93%,表明在近似科的水平上具有高度的新颖性(补充说明 1)。
真核生物多样性在不同生境间存在差异,但根据 Hill 多样性估算,真核生物物种数(Hill 丰富度)估计至少为 19,295 种(补充说明 2 和扩展数据图 2)。这些发现表明,很多的微小真核生物多样性仍未被记录。
图 2. 基于几乎全长的16S和18S rRNA基因序列以及MFG 16S参考数据库的新颖性、多样性和序列分类
a, 物种水平聚类细菌 16S rRNA 基因 OTUs 的序列新颖性(98.7%)相对于 SILVA 19 v.138.1 NR99 和真核生物 18S rRNA 基因 OTUs(99.0%)相对于 PR2(参考文献 16 )v.5.0.0。细菌的分类阈值来自参考文献 12 ,而真核生物的分类阈值则采用类似方法,基于 PR2 v.5.0.0 数据库的序列计算得出(补充说明 1)。在星号标注处,阈值是基于 PR2 数据库中物种水平分类的 18S rRNA 基因序列与其最接近的亲缘关系(在同一等级或跨等级)之间的序列相似性提出的;在科以上级别无法确定有意义的阈值。b, 来自陆地样本的基于 UMI 的细菌 16S rRNA 和真核生物 18S rRNA 基因 OTUs 的物种水平稀疏曲线。插图:MFDO1 栖息地特异性稀疏曲线,针对至少包含九个样本的栖息地。c,d, 基于从选定的 MFD 宏基因组中提取的 16S rRNA 基因读数(c)和 GPC 23 数据集中 99%相似性聚类得到的 V4 OTUs(d)的数据库评估。宏基因组读数或 OTUs 的分类使用 SINTAX 63 分类器完成。 除了此处创建的 MFG 数据库外,还使用了以下数据库:GreenGenes2_2022_10 分类主干,GTDB_ssu_all_r220(参考文献34 和SILVA_138.1_SSURef_NR99(参考文献19 ))。所有数据库均在 98.7%的序列一致性水平上聚类,以实现直接比较。
MFG 16S rRNA基因数据库
16S rRNA 基因序列进行可信的分类学鉴定,依赖于具有清晰分类学框架、且包含未培养类群的代表性数据库。由于当前的通用参考数据库缺乏我们所需的特异性,我们使用了我们大量的近全长 16S rRNA 基因数据集,创建了一个综合性参考数据库,用于对从我们的宏基因组中提取出的 16S rRNA 基因序列片段进行分类学鉴定。
为了提高分类准确性,我们用来自 SILVA v.138.1 SSURef NR99、EMP500、AGP70、MiDAS 和参考文献 21 的高质量序列补充了我们的序列(见方法)。最终获得了总计 3020 万条序列,我们使用 Autotax 软件对其进行处理,创建了 Microflora Global (MFG) 16S rRNA 基因参考数据库。这 1,034,840 个唯一的扩增子序列变体(ASV)按 98.7% 的核苷酸一致性进行聚类,代表了 342,673 个具有完整七级分类阶元的细菌或古菌物种水平操作分类单元(OTU)。
为了评估 MFG 16S 参考数据库,我们首先使用 MFG 16S 参考数据库以及其他公开可用的、在物种水平(98.7% 一致性)聚类的数据库,对比了我们样本子集(n = 2,348;见方法)中宏基因组来源的 16S rRNA 基因片段的分类情况(图 2c)。使用 MFG 16S 参考数据库,我们将所有提取出的 16S rRNA 基因读段(reads)中的 46.1%(1040 万条中的 479 万条)分类到了属水平,相比之下,表现第二好的数据库 GreenGenes2 仅分类了 32.2%(1040 万条中的 335 万条)(图 2c)。接下来,我们利用全球原核生物普查(GPC) V4 OTU 数据集(图 2d),评估了我们的数据库对丹麦所处的北半球温带生境以外数据的分类能力。MFG 16S 参考数据库能够将 GPC OTU 中的 47.7%(220 万个中的 105 万个)分类到属水平,而 GreenGenes2 仅分类了 32.7%(220 万个中的 72 万个)。
综合结果证实,MFG 16S 参考数据库不仅极大地改善了我们样本的分类效果,也提升了通用微生物谱分析的分类效果。
栖息地管理的多样性
栖息地中的微生物多样性水平通常由α多样性(即单样本或平均样本的丰富度)以及伽马多样性(栖息地内所有样本的总观测丰富度)来表征。与地面上的宏观生物多样性相比,受扰动(即受人类活动管理或直接影响)的土壤在大陆和全球尺度上都比未受扰动的自然区域拥有更高的丰富度。我们详细的栖息地本体论和每种栖息地类型的样本数量,使我们能够利用宏基因组来源的16S rRNA基因片段和几乎完整长度的16S UMI rRNA基因数据集重新评估这些观察结果 。
为确保数据能够有效进行样本间的比较,我们调查了样本处理和位置带来的偏差。大多数农业样本与其他土壤样本的处理方式不同,但这种处理对α和β多样性没有明显影响,仅占群落变异的约2%。我们通过对宏基因组来源的16S rRNA基因片段进行距离-衰变分析,估计空间自相关性,考虑了因采样密度更高地点而产生的空间偏差。基于结果,我们识别出丹麦10公里参考网格内MFDO1栖息地的代表性样本。基于这些样本在栖息地间平均的Bray–Curtis差异(β多样性)进行分层聚类,基本捕捉了基于相似地上特征(例如草被、单一种植、暴露)的预期关系。这些关系通过田地、绿地和草原地层的聚集表现为例证(见图。3a)。
我们从近乎全长的UMI 16S rRNA基因数据中计算了α多样性。与此前在欧洲大陆和全球尺度的研究发现受扰动栖息地样本中α多样性最高不同,我们发现细菌中位多样性在泥炭沼泽、沼泽和沼泽中最高(1705个物种),在温带荒原和灌木丛中最低(1274个),受扰动栖息地的多样性介于两者之间。我们发现田地、森林或草地形成物间α多样性无显著差异,这与欧洲大陆的先前结果相矛盾,同时也与全球的发现相符。在其他大陆开展更多大型研究对于解决人类干扰对α多样性的影响至关重要 。
与α多样性结果相反,伽马多样性揭示了受扰动栖息地与自然栖息地之间的关键差异。田地的伽马多样性最低,加上绿地,其多样性远低于更自然环境的草地地貌。这一趋势也反映在沉积物上,城市沉积物的伽马多样性低于自然沉积物。人类干扰通过创造更均匀的环境条件来减少生态广度,导致伽马多样性降低。这一点得到了我们对城市环境与自然环境比较的支持,自然栖息地涵盖了更大的环境异质性,反映了更大的栖息地宽度,因此伽马多样性也更高。总体来看,这些数据表明,干扰程度会影响伽马多样性梯度,从高度扰动的田地到中度扰动的绿地和相对未受干扰的草地地层。这些发现支持受扰动栖息地物种的同质化。Bray–Curtis分析也支持栖息地物种同质化,该分析显示原核生物群落在栖息地内的差异性较低 。
田间低伽马多样性在细菌群落中最为明显,但也可见于真核生物数据中,并反映了地面上的宏观生物多样性。值得注意的是,温带石南和灌木丛的伽马多样性与田地相似低,α多样性也较低。然而,这种栖息地具有选择性,由干燥、贫瘠和酸性环境定义,与灌溉、营养分和pH值调整的农田形成对比。
这些结果表明,相同的细菌物种出现在受干扰的生境中,并且受干扰生境承受着与具有明确非生物限制的自然生境相当的选择压力。这凸显了在评估微生物多样性时纳入 γ 多样性(gamma diversity)的必要性。在监测土地利用和气候变化的影响时,引入这种更广阔的视角尤为重要,因为群落同质化可能导致生态系统复原力降低,并对生态系统功能产生影响。
图 3. 丹麦陆地栖息地的微生物多样性
a, 所选栖息地的多样性概述。每个方面针对不同的多样性指标。九种 MFDO1 栖息地以多面图行形式呈现。树状图展示了基于空间稀疏数据集中属水平分类的 16S rRNA 基因片段,采用 Hellinger 转换的 Bray-Curtis(BC)组间(分支)和组内(节点)差异。Bootstrap 值通过 100 次迭代计算得出。热图显示了 20 个最丰富门类的相对丰度。Alpha 多样性箱线图和 Gamma 多样性柱状图基于 UMI 16S rRNA 基因数据。每个栖息地用于多样性测量的生物独立样本数量已标明。箱线图的 hinges 对应分布的 25th、50th 和 75th 百分位数,须线延伸至 25th 和 75th 百分位数之间距离的 1.5 倍。所有单个样本均以点形式展示(为可视化添加了抖动)。 伽马多样性(Hill-Shannon 多样性)基于对 n 个样本进行稀疏化和外推,反映每个生境(即条形图)的单一值,误差线报告了相关的 95%置信区间。b, 基因组(MG)数据集的排序。9,643 个基因组的样本进行 PCoA 分析,并根据 MFDO1 生境描述进行颜色编码,同时展示了 ANOSIM 和 PERMANOVA 的结果;P 值均基于 999 次置换计算得出。可视化展示了前两个主成分。等高线图被添加以显示点的密度。c, 18 个选定的 MFDO1 生境的子图,按颜色编码并展示了对比分析的结果。 d, MFDO1 ‘土壤、自然、沼泽、泥炭地和沼泽’的样本在排序空间中的分布,按 MFDO2 本体分类进行着色
栖息地分类建模
在揭示伽马多样性对生物多样性评估的重要性后,我们研究了微生物群落如何用于分类栖息地及其追踪未来栖息地变化的潜力。对真核生物18S rRNA基因数据集进行的探索性主坐标分析(PCoA)显示MFDO1栖息地类别之间存在一定的分离。然而,对于原核生物群落,PCoA显示出基于宏基因组来源的16S rRNA基因片段微生物群落组成,MFDO1栖息地之间有良好分离。例外的是MFDO1“沼泽、泥炭和沼泽”,在空间中表现出较大的分散。在MFDO2层面,该栖息地包括含钙沼泽和泥炭酸泥炭沼泽,pH值差异显著,影响微生物群落。(图 3d)。
为了确定微生物群落DNA在栖息地分类中的潜力,我们研究了16S rRNA基因片段是否能预测栖息地本体论。(图 4 和补充说明 5)。我们利用曲线下的精确回忆面积(PR-AUC;图 4)评估。一些栖息地难以建模,例如它们的 PR-AUC 较低(图 4),例如各种类型的田地,其中共享分类单元的数量较大。相反,其他栖息地——如盐水和污水,具有更高的PR-AUC——则与更专门化的微生物组相关。一般来说,低模型分数反映了某些栖息地样本容易被误归为其他几个特定栖息地,例如草原地层、绿地和田野的样本常常被误归为同一类。(补充说明 5)。
考虑哪些原核生物属在区分栖息地方面最为重要,最强烈的信号来自Paenibacillus,其物种被发现与作物相关,促进植物生长和防护病原体,并固定氮。Paenibacillus分布于土壤和沉积物中,田间栖息地中数量较多,可能作为样本类型和土地利用的预测因子。我们的发现支持利用微生物进行低分辨率离散栖息地分类(即MFDO1),但不支持高分辨率分类(即MFDO2)。这与此前提出的使用连续梯度重新定义栖息地的研究相符。我们相信微生物组数据可以为未来的分类工作提供可扩展的解决方案,使梯度能够被比较,以衡量或监测与气候、可持续农业选择或恢复进展相关的变化。识别属于特定栖息地或栖息地梯度的核心微生物,有助于简化微生物组数据的使用 。
丹麦栖息地的核心微生物在栖息地中丰富且广泛分布,可能反映了具有特定栖息地适应性、功能和生态重要性的种群。我们在所有五个栖息地本体层级中识别出丰富的核心群落属。
在具有强大选择性环境梯度(例如耐盐性)或受限生境(如沼气系统)中,生境特有的核心属数量更多(补充数据 2 和扩展数据图 4)。相反地,如果不存在生境特异性的选择压力,我们观察到的生境特有的核心物种就较少。例如,土壤 MFDO1 生境特有的核心属的中位数为二,这表明许多属在两个或更多 MFDO1 生境(如田地和绿地)之间是共享的。
结合观察到的生态相似环境的模型误分类,这些发现表明,尽管微生物具有巨大的分散能力,但原核生物群落遵循连续的梯度变化,因此更多地受到特定环境因素而非地理位置的影响,这与贝斯·贝金假设一致:万物皆有,唯环境选择。
这些结果表明,陆地环境中的 alpha, beta 和 gamma多样性模式,以及田地生境较高的模型评分(图4),都显示出土地干扰和管理会导致相似的微生物群落(图3a)。土地管理措施,例如营养物质的添加和土壤结构的退化,可能驱动了原核生物群落的环境筛选效应。
受干扰的土壤生境(包括田地、路边和绿地)与自然土壤生境(包括沼泽、泥炭地和酸沼;沿海地区;沙丘;森林;草地群落;岩石生境和洞穴;硬叶灌木;以及温带荒地和灌木)分别包含 107 个和 98 个核心属(即在受干扰或自然类别下的至少一种生境中存在的核心属)(补充说明6)。通过比较自然生境和受干扰生境的核心属,我们发现在氮循环相关的核心属中存在差异(例如 Nitrospira,以及 Nitrososphaeraceae 和 Nitrosomonadaceae 科内的属;扩展数据图4和补充说明6)。这一发现促使我们对这一功能群(即硝化微生物群)进行更深入的调查。
为了提供基因组级分辨率、恢复潜在功能基成员并提升公共基因组数据库(如GTDB)的代表性,我们对10,683个宏基因组进行了全新组装。我们回收了19,253个至少中等质量的细菌和古菌宏基因组组装基因组(MAGs)。这些MAGs代表了5,518个物种,系统发育覆盖广泛,其中4,604个为新物种。(补充说明7)该 MFD 基因组数据库为与物种身份及生境分布相关联的功能分析奠定了基础,并使我们得以在丹麦全境范围内,对生物地球化学氮循环中的关键参与者——硝化微生物(nitrifiers)——进行考察。
图 4. 使用原核数据进行栖息地本体论层级的随机森林分类
属级模型被用于汇编本体中每个节点的每类 PR-AUC 值。该指标范围从 0 到 1,其中 0 和 1 分别表示给定类别的样本中无一和全部被正确分类。迭代(n=25 次独立迭代)的平均结果在树标签中报告,并相应地进行颜色编码,较亮的节点表示更高的值。此外,根据变量重要性(底部箱线图,使用 MFDO3 模型计算)排名前 20 的属,以及每个本体末端节点的中位数相对丰度被报告。箱线图的三条 hinges 对应于分布的 25th、50th 和 75th 百分位数,须线延伸至 25th 和 75th 百分位数 hinges 之间距离的 1.5 倍。所有单个样本均显示为点(使用抖动以改善可视化)。所有变量的变量重要性总和在每种模型中被缩放到 100。变量的排名指示哪些属在模型中具有更大的判别能力。 值得注意的是,这些模型在分类农业土壤样本方面表现可靠(PR-AUC =0.95),但在分类个别作物类型方面并不准确。
丹麦硝化剂的分布
我们对微生物多样性的调查表明,参与氮循环的细菌和古菌数量丰富,构成了受扰动栖息地与自然栖息地的核心群落差异。这一微生物组的特征反映了丹麦是世界上最密集耕作的国家之一,其大部分土地受到涉及活性氮施肥的管理体系的影响。由于丹麦拥有庞大的畜牧业,粪肥是主要的氮源,与合成肥料并列。氮肥被硝化微生物转化导致肥料损失、地下水硝酸盐污染、水体富营养化以及强效臭氧消耗和温室气体化的氧化亚氮产生。因此,利用合成或生物抑制剂抑制硝化的重要性日益增强。过去五年,两款商业硝化抑制剂的使用量增加了五倍。值得注意的是,不同类硝化物,包括氨氧化菌(AOB)和古菌(AOA)、完全氨氧化菌(CMX)和亚硝酸盐氧化菌(NOB),它们对硝化抑制剂的敏感性和一氧化二氮产生率各异。为了积累迈向可持续农业所需的知识,我们对MFD数据集中的硝化剂进行了深入分析。基于功能基因、单份标记基因和基因组级定量分析,我们描述了丹麦硝化物的多样性和分布,并识别出新的未表征AOA和NOBs 。
最初,创建了基于基因的基因搜索模型,针对硝化标记基因amoA和nxrA,并结合了从翻译基因中详细分类蛋白质系统发育,以区分其他微生物中的硝化序列与同源序列。此外,我们在搜索模型中加入了从回收MFD MAGs中翻译的amoA和nxrA序列,显著提高了代表序列较少的硝化组内分辨率 。
对受干扰土壤生境的分析显示其硝化群落具有相似性,这表明由于相似的干扰(如氮有效性增加、地上多样性降低或物理性土壤扰动),群落发生了同质化。标在田地和绿地中观察到了最高的经典氨氧化微生物(AOA 和 AOB)相对基因丰度(图 5b,c)。这些生境以 Nitrosospira(AOB)和 Nitrososphaeraceae(AOA)为主。AOA 的分布已被证明与土壤酸度以及施肥管理制度有关。此外,农业土壤中的施石灰和无机肥施用可能创造了有利于 Nitrosospira 繁荣的条件,这一点从 Nitrosospira 在田地中的偏好可见一斑。与其他研究相似,农业土壤中 AOA 的丰度高于 AOB,特别是Nitrososphaeraceae科内的属,如Nitrosocosmicus和几个缺乏分离株的未表征属(TA-21, TH5893, TH5896, TH1177)。重要的是,通过对其基因组中amoA基因的系统发育分析,我们能够将这些未表征的 AOA 属与主要的陆地amoA未表征类群分支(clades)联系起来(TA-21/NS-δ, TH5893/NS-γ 2.1, TH5896/NS-β 1 和 TH1177/NS-ε)(补充数据 3)。通过将近全长 16S rRNA 基因参考序列比对到宏基因组组装基因组(MAGs)上,我们将其中两个属(TA-21 和 TH5896)与受干扰土壤生境中的核心属联系了起来(TA-21/MFD_g_198, TH5896/MFD_g_4907)(补充说明 6)。
尽管AOA在农业土壤中普遍丰富,但我们发现了一种未描述的AOA物种TA-21 sp02254895,在几乎所有田间样本中极为丰富。此外,同一物种在农业田间亚栖息地、永久草、低产量和休耕田地中表现出较低的相对丰度,并在其他非农业土壤中稀疏存在,除了城市公园和半自然草地。丹麦全境TA-21 sp02254895的丰度随土地利用强度变化,可能是人为干扰程度的影响。由于其与受扰动的丹麦栖息地有关,我们提出“Candidatus Nitrososappho danica”这一名称 。
对“Candidatus Nitrososappho danica”的功能基因组注释揭示了利用氨(amoABC)和尿素(ureABC)配合氨(amt1/amt2)和尿素转运蛋白的潜力,通过 3-hydroxypropionate/4-羟基丁酸循环 47(乙酰辅酶 A/丙酰辅酶 A 羧化酶(accC/pccC)、甲基丙二酰辅酶 A 突变酶(mcmA1、mcmA2)、4-hydroxybutyryl-CoA 脱水酶(abfD)实现固定)以及参与肽(MEROPS 鉴定符:半氨酸 C44、C26;丝氨酸 S09C;苏氨酸 T01A;以及金属肽酶 M38、M41、M48B)和多糖(CAZyme 鉴定符:GT2、GT55、GT81、CE1、CE14、CBM32、GH5)降解的若干基因。具体来说,GH5 和 CBM32 在多个拷贝中被发现(补充数据 4),并且此前已有报道称在 TA-21/NS-δ类群 48 中表达较高。'CandidatusNitrososappho danica'的混合营养潜力或许能解释 TA-21/NS-δamoA丰度与硝化和碳同化速率之间的差异 49,未来仍需研究以澄清这一广泛且极为丰富的生物是否通过自养氨氧化生长。由于 AOA 的 N2O 产量远低于 AOB43、44、45,因此了解如“CandidatusNitrososappho danica”等古菌物种的分布和能量代谢,将对管理农业土壤的环境影响至关重要。
此外,最新研究表明,CMX硝化螺菌可能比此前认为的更丰富且对土壤硝化作用更为重要。这一点尤为重要,因为CMX硝基螺菌与AOA一样,产生的氮氧化物量低于典型的AOB含量。我们将硝化螺作为扰动土壤栖息地核心属的一部分,但根据nxrA和16S rRNA基因,正统硝化螺属和CMX属难以区分。通过利用amoA基因系统发育,我们将CMXNitrospira归入其分支A和B亚型,分别位于Nitrospira_D属和Palsa-1315中。Palsa-1315很可能是新的共居属。这一观点得到了Nitrospira B类群amoA与Palsa-1315nxrA在不同MFDO1栖息地中的线性相关性的支持,以及通过回收MAGs中识别出的amoA和nxrA(见图5a) 。
值得注意的是,我们改进的搜索模型显示,CMX演化群B(目前尚无培养代表)在大多数栖息地,尤其是自然土壤中,比CMX演化群A更为丰富以及沉积物。这挑战了此前认为CMX分支B在森林土壤、湿地沉积物以及酸性或肥沃农业土壤中不丰富的看法。硝化螺演化支A在沉积物和农业土壤中识别不一致,几乎未在其他研究的栖息地中出现(图5b)。我们的分析强调CMX分支B是丹麦自然栖息地中氨氧化剂最丰富的,尤其是MFDO2栖息地的石灰质沼泽、冲积林和半自然湿润草甸,而经典的AOB和AOA则在受扰动栖息地中更为丰富。基于此,我们建议将由圆形氨氧化剂代表的物种命名为“CandidatusNitronatura plena”,以描述这种极可能是完整氨氧化剂的自然广泛分布。硝化螺_C是基于单副本标记基因最丰富的经典NOB属,并表现出与AOA相似的栖息地模式,尽管数量较低。在国家层面,硝化石群落明显反映了不同的栖息地类型,其结构受人类影响影响。在这里,我们展示了能够在大规模范围内将特定物种跨土地利用类型联系起来。
基于nxrA基因鉴定结果,硝化杆菌(Nitrobacter)这种被广泛研究的 NOB 模型生物被认为在施肥土壤中含量丰富。然而,我们对编码 NXR 的 MAGs 进行的详细搜索表明,硝化杆菌可能被严重高估了,因为我们发现NxrA序列(>600 个氨基酸)在系统发育上介于硝化杆菌和硝化球菌(Nitrococcus)之间(扩展数据图 8 和补充说明 9 和 10)。虽然其他研究曾报道,在农业土壤中,细胞质nxrA序列聚集在已培养的硝化杆菌代表的附近,但位于其范围之外,我们却能够将这些类硝化杆菌的NxrA 序列与黄色杆菌科(Xanthobacteraceae)成员联系起来,主要包括慢生根瘤菌属(Bradyrhizobiumspp.)、假杆菌属(Pseudolabrysspp.)和未表征的 BOG-931 属(图 5 和补充说明 10),而这些物种此前并不被认为是 NOB。特别是,来自 BOG-931 属的类硝化杆菌 NxrA 的单系分支与硝化杆菌和硝化球菌的 NxrA紧密分组,且相关的 MAGs 在基因组系统发育树上聚集在一起(扩展数据图 8 和补充说明 10)。
我们研究了从MFD样本中提取的长读长高质量MAGs中的基因共线性。代谢重建显示其纵子类似于Nitrobacter winogradskyi和Nitrobacter hamburgensis的nxr/nar纵子,由细胞色素c类I、nxrA、nxrX、nxrB/narH、narJ和narI组成,两侧有转座酶,伴有甲酸/硝酸转运蛋白和细胞色素C氧化酶基因簇(扩展数据图9及补充注释 10)。因此,BOG-931中Nxr编码成员可能是许多栖息地中潜在的新NOB,但确认需要培养(补充注释 10)。
疑似硝化杆菌的nxrA群分布于田野、森林、草原地貌和绿地(见图5b)。在田间中, 硝化杆菌和类硝化杆菌的 nxrA 基因与作物类型无关,但其数量不如经典的硝化螺菌 NOB,如硝化螺菌 _C(见图)。5b,c)。BOG-931 在森林土壤中最为丰富,硝化杆菌和类硝化杆菌 NOB 此前也与森林土壤中的氮修补有关。 事实上,BOG-931 主要 在缺乏检测到 CMX 类群 B 的土壤栖息地中被检测到,并且在森林、草地地层以及泥炭沼泽、沼泽和沼泽栖息地的泥炭酸性泥炭沼泽中尤为丰富(见图。5b)。这表明 CMX 与经典或潜在 NOB 之间的生态位区分,并强调了对未培养但丰富的硝化物(包括含Nitrobacter nxrA类基团、CMX 类群 B 和 AOA TA-21)进行进一步研究的普遍需求。由于利用硝化物的存在和丰度来评估人类活动如何影响氮循环 44,我们的结果强调了开发和应用可靠方法以定量记录其多样性和分布的重要性。此类方法必须涵盖所有重要群体,包括新检测到的硝化物,并提供其对环境因素反应的见解。 其中最关键的因素是气候变化,气温升高和生长季节延长可能导致硝化作用增加或延长,干旱频率增加可能导致土壤中 AOB 活性增加,但 AOA 和 CMX 活性减少。
图 5. 丹麦栖息地中的硝化菌分布
a, 硝化菌的系统发育树。红色文字表示我们获得了基因组集的类群;括号中的数字表示 GTDB R220(参考文献 34 )中该类群的总物种数、MFD 中获得的物种数、MFD 中获得但在 GTDB R220 中未出现的物种数以及 MFD 中获得的基因组集总数。括号中的值分别代表 GTDB 物种代表数量、MFD 物种代表数量、MFD 中不在 GTDB 的物种代表数量以及 MFD 基因组集总数。b, 硝化基因在丹麦栖息地中的分布。分配给每个基因-系统发育类群(补充图 7 和 9)的读数数量(每千碱基百万读数(RPKM))。如果一个分类单元具有多系amoA或nxrA类群(补充说明 9),星号表示热图中将多个类群聚合为单行。样本在每个 MFDO2 栖息地内通过层次聚类进行聚类。底部的颜色面板表示 MFDO2 栖息地。 c, 基于单拷贝标记基因(SingleM)的典型和潜在硝化菌在丹麦栖息地的分布。短读数宏基因组的热图基于 SingleM,并使用来自 MFD 短读数宏基因组的 MAGs 补充了宏基因组软件包。分类学分辨率由基于 GTDB 分类学的前缀标记:o__(目)、f__(科)和 g__(属)。分配给较高分类阶层的读数,如‘f__Nitrososphaeraceae’,不包括后代,仅包含未分配到特定较低阶层的那些。分配给 pNxrA 树(b)中‘Nitrospira_clade_1’类群的 pNxrA 基因片段(c),可能来自 GTDB 属 Nitrospira_C 的物种基因组,因为 pNxrA 群和 Nitrospira_C(基于单拷贝标记基因)的丰度遵循相同的趋势。
结 论
在此,我们提供了丹麦微生物群落的图谱,建立了微生物多样性的国家基线。虽然许多生境具有独特的微生物特征,但一些生境显示出通过基于植物群落推断的分类法无法检测到的意外相似性(例如田地和绿地)。这些相似性可能源于土地管理干扰,这种干扰在增加物种多样性的同时,也驱动了同质化,因为受人类干扰影响的群落会发生趋同。这种同质化延伸到了功能层面,硝化群落反映了生境类型和人类的影响。将 γ 多样性(gamma diversity)指标整合到生物多样性评估中,可能有助于防止国家层面的微生物组同质化。
未来的评估可以采用数据驱动的方法,因为我们的模型表明,短读长数据可以将微生物组与基于植物推断的生境相匹配。下一步是将微生物物种和功能群(guilds)(如硝化微生物)与其他国家级研究工作联系起来,包括历史土地利用、施肥制度和温室气体排放。通过对新物种的鉴定和表征,基于微生物信息的农业管理已指日可待,这提供了一种潜在策略,即通过调整投入来促进或抑制特定微生物,从而限制 N2O 排放。我们希望其他国家图谱也能紧随其后,从而实现对其他大陆多样性和分布的比较。当我们站在剧烈气候转变的边缘时,MFD 数据集将成为追踪受干扰和自然生态系统中微生物适应性和复原力的重要资源,也是监测未来生态修复工作的标准。
在线内容:
任何方法、附加参考文献、《Nature Portfolio》报告摘要、源数据、扩展数据、补充信息、致谢、同行评审信息;作者贡献和竞争利益的详细信息;以及数据和代码的可用性声明,均可在以下网址获取:https://doi.org/10.1038/s41586-025-09794-2
引文格式:
Singleton, C.M., Jensen, T.B.N., Delogu, F. et al. The Microflora Danica atlas of Danish environmental microbiomes.Nature(2025). https://doi.org/10.1038/s41586-025-09794-2
作者简介
Caitlin M. Singleton(第一作者)
● 奥尔堡大学环境微生物学系终身轨助理教授,“可持续性与修复微生物组”研究组负责人。● 研究方向主要聚焦细菌和古菌与自然环境的关系、利用微生物解决碳足迹、绿色能源和气 候变化等环境问题、生态系统修复、生物地球化学循环,以及废水和厌氧消化池微生物的宏基因组挖掘与代谢潜力研究等方向。
Mads Albertsen(通讯作者)
● 奥尔堡大学化学与生物科学系。研究方向主要聚焦于通过开发将通量提高至少10倍的新方法,利用DNA测序技术对复杂环境中的未培养微生物进行高通量研究;致力于用基因组充实生命之树以造福人类。个人主页:http://albertsenlab.org
宏基因组推荐
9月12-14日,高级转录组分析和R语言数据可视化
10月18-19日,微生物组-扩增子16S分析
11月15-16日,微生物组-宏基因组分析
本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。投稿请联系小编(微信号:yongxinliu 或 meta-genomics)
iMeta高引 fastp PhyloSuite ImageGP2 iNAP2 ggClusterNet2
iMeta工具 SangerBox2 美吉2024 OmicStudio Wekemo OmicShare
iMeta综述 高脂饮食菌群 发酵中药 口腔菌群 微塑料 癌症 宿主代谢
10000+:扩增子EasyAmplicon 比较基因组JCVI 序列分析SeqKit2 维恩图EVenn
iMetaOmics高引 猪微生物组 16S扩增子综述 易扩增子(EasyAmplicon)
系列教程:微生物组入门 Biostar 微生物组 宏基因组
专业技能:学术图表 高分文章 生信宝典 不可或缺的人
点击阅读原文