Nature Microbiology | 基于TRACS算法的跨多界宏基因组数据菌株水平溯源推演-洪萨配资

研究论文

● 期刊：Nature Microbiology(IF:19.4)

● DOI：https://doi.org/10.1038/s41564-026-02339-x

●原文链接: https://www.nature.com/articles/s41564-026-02339-x

● 第一作者：Gerry Tonkin-Hill

● 通讯作者：Gerry Tonkin-Hill（gtonkin@unimelb.edu.au）

● 发表日期：2026-4-24

● 主要单位：

1澳大利亚，维多利亚州，墨尔本，彼得・麦卡勒姆癌症中心Peter MacCallum Cancer Centre, Melbourne, Victoria, Australia.

2澳大利亚，维多利亚州，墨尔本，墨尔本大学，彼得・麦卡勒姆肿瘤学系Sir Peter MacCallum Department of Oncology, The University of Melbourne, Melbourne, Victoria, Australia.

3澳大利亚，维多利亚州，墨尔本，墨尔本大学附属彼得・多尔蒂感染与免疫研究所，微生物与免疫学系Department of Microbiology and Immunology, The University of Melbourne at the Peter Doherty Institute for Infection and Immunity, Melbourne, Victoria, Australia.

4挪威，奥斯陆，奥斯陆大学，生物统计学系Department of Biostatistics, University of Oslo, Oslo, Norway.

摘要Abstract

宏基因组数据中同一物种的多种共存菌株，为致病性微生物与共生微生物的传播溯源分析带来了巨大挑战。本研究提出菌株传播聚类算法（TRACS），这是一种高精度算法，可在单核苷酸多态性水平计算菌株间的遗传距离，且对宿主内部的种内多样性具有良好耐受性。通过粪便微生物移植数据集与大规模模拟数据验证表明，TRACS 的性能优于现有分析方法。本研究利用 TRACS 对多重菌株定植患者的传播网络进行溯源分析，涵盖新型冠状病毒扩增子测序数据、肺炎链球菌深度种群测序数据，以及恶性疟原虫感染患者的单细胞基因组测序数据。将 TRACS 应用于母婴队列肠道宏基因组样本分析后，研究明确了不同物种的菌株传播率，并发现婴儿体内短双歧杆菌的定植留存能力显著提升；该结论受多菌株共存干扰，在过往研究中一直未被发现。本研究证实，TRACS 可跨不同微生物界别开展分析，助力解析菌株水平的动态演化规律。

正文Main

宿主间传播是塑造人类与微生物相互作用的核心过程。借助基因组学手段追踪病原体传播，已成为公共卫生领域的重要工具，有助于在局部及全球范围内防控疾病传播。除病原体之外，解析共生微生物的传播与定植动态，能够极大加深我们对微生物组构建、维持机制，以及饮食、生活方式、文化习俗、临床干预和社交行为如何影响微生物组的认知。此外，人类微生物组中含有具备治疗潜力的微生物，可用于多种人类疾病的干预。在粪便微生物移植、活体生物治疗产品等临床干预场景中，精准筛选候选功能菌株，能够有效降低研发风险、加快微生物组疗法的开发进程。

全基因组测序彻底革新了传播链溯源能力，可通过检测单核苷酸多态性，实现对耐甲氧西林金黄色葡萄球菌等慢速进化病原体的精细追踪。但多数全基因组分析仅选用单一物种的代表性基因组，忽略了宿主体内的菌株多样性。近年兴起的宏基因组技术弥补了这一短板，可同时对多个物种及菌株开展并行分析。通过培养富集、PCR扩增子测序等靶向富集手段，还可实现特定物种的深度种群测序，支撑共存定植菌株的高精度解析。目前依托宏基因组与深度种群测序开展传播溯源的主流金标准方法，大多专为定向科研研究开发。这类方法虽可实现宿主体内变异检测、通过非同义/同义替换比值解析选择压力等深度分析，但运算效率低、通用性差，难以满足公共卫生常态化监测的需求。尤为关键的是，其时间分辨能力不足，无法精准区分近期传播（数周至数月）的菌株与长期分化（数年）的近缘基因组。

依赖参考标记基因数据库的分析工具（如MIDAS、StrainPhl）仅覆盖物种基因组的一小部分（10-200个基因），且无法区分种内遗传多样性，这极大限制了菌株传播溯源的时间分辨能力。另一类分析策略被StrainGE与inStrain（数据库模式）所采用：先鉴定整体数据集中包含的物种，再构建专属参考基因组库用于序列比对。该方法高度依赖传播菌株与参考基因组的序列相似度，无法持续纳入新增样本进行迭代分析，因此不适用于常态化基因组监测工作。

另一类常用研究手段依托从头宏基因组组装实现，代表性流程包括 inStrain（组装模式）与 STRONG 分析流程。基因组组装需要目标传播菌株具备较高的测序覆盖度。这类方法在混合组装流程中，先合并样本再进行基因组分箱分析时，整体表现最优。

但为避免大规模基因组去重（该操作会使分析变相转变为基于参考基因组的分析模式），此类工具仅能成对或选取少量样本开展分析，进而大幅增加计算负荷。此外，现有算法通常无法兼顾同一样本内同一菌株间的基因重组与同源序列共享问题，在解析宏基因组与种群测序数据时，会严重影响菌株传播溯源结果的准确性。为解决上述局限，本研究开发了菌株传播聚类算法（TRACS）。该算法精度高、操作简便，可用于判断两个样本之间是否存在近期传播关联。

TRACS算法可识别仅数个单核苷酸多态性（SNP）级别的微小遗传差异，以此区分近缘菌株的传播关系，这对于慢速进化病原体的研究至关重要。该算法采用统计学过滤策略，校正可变测序覆盖度、菌株间共有同源序列以及测序误差带来的干扰。核心优势在于，TRACS能够精准且保守地估算SNP距离下限，并对每条参考比对序列进行独立分析，支持新增样本持续纳入分析。该算法逻辑与传统单分离株基因组流行病学中常用的SNP距离分析原理相近，使其非常适用于公共卫生常态化监测场景，可精准甄别潜在传播网络、排除不存在的传播事件。但与单分离株研究一致，若要解析传播方向等精细传播结构，通常需要结合接触溯源等流行病学辅助数据。

本研究结合大规模模拟分析与特征明确的粪便微生物移植（FMT）宏基因组数据集进行验证，结果表明：TRACS相较于现有宏基因组传播溯源方法性能更优，能够可靠识别潜在的微生物传播事件。研究将TRACS应用于病毒、细菌、寄生虫等多类病原体，充分证实该算法具备良好的拓展性与通用性。

结果Results

算法概述Algorithm overview

TRACS的初始比对阶段采用基于哈希的检索工具Sourmash，筛选出最能代表样本中各物种及其菌株的参考基因组集。与其他方法不同，TRACS无需将测序读长拆解至不同基因组分箱（该过程易产生误差），而是将全部读长分别独立比对至每一条参考基因组，统计每个位点的等位基因丰度。该设计支持增量纳入新样本、向参考数据库持续补充新物种，且无需对已有数据重新分析。

随后，研究采用一系列统计过滤算法，剔除受共有序列同源性、多定位读长、比对质量不佳及低测序覆盖度影响的基因组区域（图 1）。其中包含一种扫描统计量，原理与系统发育学中用于检测基因重组的算法相近，可识别多态性异常升高的区域；此类区域通常由共存定植菌株间的序列同源或基因复制所导致。TRACS还引入经验贝叶斯算法，校正参考基因组中覆盖度不足的区域，避免因测序深度偏低而无法准确区分样本内多菌株、或难以真实反映菌株组成的问题（详见方法部分）。完成过滤后的比对结果，会针对每条参考基因组分别构建基于参考的多序列比对（MSA）。最后，TRACS内置一套高效的双端SNP距离计算算法，可兼容IUPAC简并碱基规则，实现菌株间遗传距离的快速估算。

图1 | 展示TRACS算法核心组成的示意图

左侧：将测序读长分别比对至经Sourmash筛选得到的各参考基因组。采用经验贝叶斯方法，精准定位无法有效识别低丰度菌株的低覆盖基因组区域。中间：利用IUPAC简并碱基编码，将各样品的比对结果转换为多序列比对（MSA），用以表征单个位点上的多种等位基因。随后快速计算两两SNP遗传距离，并通过识别高SNP密度区域，剔除潜在重组区段。可选择运行TransCluster算法，估算两组样本之间潜在的中间宿主数量。右侧：基于单连锁层次聚类算法，对最终得到的两两传播距离结果进行聚类分析，划分潜在传播集群。通过混合分布模型推导传播距离阈值，以此区分远缘关联样本对与近期传播关联样本对。

TRACS可结合采样日期与已知传播世代时间（可选功能），依托升级版TransCluster算法，估算样本间潜在的中间宿主数量（详见方法部分）。TRACS的比对模块虽专为宏基因组与种群测序数据设计，但其他单分离株分析工具（如Snippy）生成的多序列比对结果，也可直接作为输入文件使用。

利用成对距离法推演传播链的一大核心难题，在于界定合适的阈值，以此判定两株菌株是否存在近期传播关联。TRACS引入了一种基于混合分布的分析方法，用以区分近期传播菌株与远缘菌株；该方法结合近缘样本（如同一宿主的样本）与远缘样本共同计算阈值，相较以往基于约登指数的传统手段，阈值判定更为精准。

TRACS算法基于Python与C++语言开发，遵循MIT开源协议并对外开放使用。

TRACS在模拟样本对分析中表现优异TRACS shows strong results on simulated pairs

为评估TRACS对含同一物种多菌株的样本对进行微小遗传距离精准估算的能力，本研究基于多种常见肺炎链球菌菌株混合样本，模拟生成全基因组测序读长。肺炎链球菌的常用传播判定SNP阈值通常小于10个SNP。本研究在每组样本对中，设置一组共有基因组，并设定不同遗传距离（5、50、500个SNP），同时保证传播菌株的平均测序覆盖度不低于5倍。本研究将TRACS与 inStrain、StrainGE及StrainPhlAn开展性能对比。

除TRACS外，其余所有算法均会严重高估遗传距离（图 2a）。该偏差在低丰度菌株中更为显著（扩展数据图 1），进而大幅削弱这类算法排除近期传播事件的能力；对于多数微生物物种，其通用SNP判定阈值远低于上述被高估的遗传距离结果。在对比算法中，StrainGE的综合表现仅次于TRACS，这可能得益于其可识别低丰度菌株，且在物种内部基因组间采用竞争性比对策略。该机制能够有效减轻水平基因转移带来的干扰，这一点也在StrainGE原始研究中得到证实。但StrainGE仅在高遗传距离（500个SNP）条件下结果相对准确，该数值已远超肺炎链球菌传播判定的常用临界值（通常＜50个SNP）。为明确TRACS中各过滤模块的贡献差异，本研究对算法内多种统计过滤策略进行组合测试（扩展数据图 2）。结果显示，包含经验贝叶斯模型的覆盖度过滤效果最优，其次为重组区域过滤。利用原位模拟的Nanopore R10.4.1测序读长重复上述模拟实验，进一步验证了TRACS可兼容多种高精度测序平台。

图2 | SNP距离估算算法在模拟混合样本与实验混合样本中的准确度

a、四种算法在肺炎链球菌基因组模拟混合样本中，成对 SNP 距离估算的相对误差，计算公式：（估算距离−模拟真实距离）/ 模拟真实距离。每组样本对中设置一株传播菌株，其 SNP 距离为横轴对应数值。每组参数均开展 10 次重复模拟，箱线图展示相对误差的分布情况。数值越接近零代表算法表现越优；正值表示 SNP 距离被高估，负值表示被低估。箱线中线为中位数，箱体边界代表四分位距（IQR），须状区间延伸至 1.5 倍四分位距范围。

b、各算法应用于人工实验混合肺炎链球菌菌株样本的分析结果（引用 Knight 等人研究）。其中 10 组样本对含有完全一致的菌株，理论真实 SNP 距离应为 0。除 TRACS 外，其余所有算法均错误估算出偏高的 SNP 距离。箱线中线为中位数，箱体边界代表四分位距，须状区间延伸至 1.5 倍四分位距范围。

c、基于人工构建肠道宏基因组样本，开展多物种菌株传播模拟分析。所选基因组与 GTDB 参考基因组的平均核苷酸一致性（ANI）分别为 100%、99%、97%；GTDB 参考库为 inStrain、StrainGE、TRACS 的比对参考数据库。StrainPhlAn 采用 4.0.5 版本标记基因数据库进行分析。与肺炎链球菌模拟实验保持一致，选取 10 个物种，分别设置 5、50、500 个 SNP 三种传播距离阈值进行独立模拟，单次模拟中每个物种仅包含单一菌株。本研究除使用 GTDB 参考基因组运行 inStrain 参考比对模式外，还利用 metaSPAdes v4.2.0 对每组样本对构建自定义参考基因组（inStrain 组装模式）；通过将组装序列比对至模拟基因组，完成重叠序列的物种分箱。箱线中线为中位数，箱体边界代表四分位距，须状区间延伸至 1.5 倍四分位距范围。

为利用真实测序数据与已知真实基准结果验证上述结论，本研究分析了既往研究中的13组不同肺炎链球菌实验室混合样本。每组样本之间均含有至少一株完全相同的菌株基因组，理论上所有算法都应计算得出零SNP差异。如图 2b所示，仅有TRACS能够在所有样本中稳定判定SNP距离为0。StrainPhlAn虽在部分案例中可正确输出零SNP结果，但该工具依赖标记基因进行分析，会造成SNP距离的系统性低估，这一点也在后续粪便微生物移植（FMT）数据的分析中得到印证。

为进一步探究如何基于宏基因组数据、针对多物种场景重构传播链，本研究模拟构建了常见肠道细菌的混合基因组数据集，并设置三组与参考数据库的序列相似度梯度：100%、99% 与 97%（详见方法）。模拟实验中，选取既往宏基因组传播研究中的单一代表性物种，设定特定SNP距离完成传播过程模拟。除StrainPhlAn采用默认v4.0.5标记基因数据库外，其余分析方法均使用统一参考数据库。结果显示，当传播菌株基因组与参考数据库序列差异≥1% 时，inStrain 对绝大多数模拟样本对的SNP距离均存在持续高估现象（图 2c）。通过构建研究专属参考库（如全部样本共组装、单样本组装后去重）等替代策略，或可改善估算精度。但由于inStrain依赖竞争性序列比对，官方要求需对参考数据库进行去重处理，保证任意两组基因组序列一致性不超过98%。因此，在同物种多菌株共存的研究场景（大型数据集普遍存在）中，一旦菌株与组装/去重后的参考基因组存在差异，仍会产生与图 2c一致的分析误差。

作为替代方案，本研究尝试构建样本对专属参考基因组。在该模式（inStrain 组装模式）下，利用metaSPAdes对每一组样本对分别进行独立组装，为各组生成专属参考数据库（图 2c）。该方法虽能优化SNP距离的估算结果，但其计算成本极高，难以应用于大规模研究。即便不计组装的运算消耗，使用样本对专属参考序列时，仍需为每一组样本对单独运行inStrain比对与变异检测流程。仅该步骤，每组样本对就约需12.5个CPU工时（扩展数据图 4）。对于仅包含100份样本的中等数据集，需完成高达4950次独立比对，累计CPU耗时超2500小时。此外，若单一样本对中存在同一物种的多个菌株，该方案仍有可能无法组装得到目标传播菌株的参考基因组，进而导致分析失效。

跨多类群的传播溯源精准度提升Enhanced transmission estimates across diverse taxa

TRACS算法的一大核心优势，是当宿主体内定植有同一物种的多种菌株时，仍可有效识别潜在传播事件。这一问题在高疾病负担地区尤为突出。与StrainPhlAn等其他算法不同，TRACS适用于各类生物类群，涵盖寄生虫、病毒与细菌。为全面验证TRACS在多种病原体中的应用效能，本研究选取三组背景清晰、数据质量完善的数据集开展分析。

新型冠状病毒（SARS-CoV-2）

虽然新冠病毒（SARS-CoV-2）多毒株共感染的情况相对少见，但在病房等疾病高负担区域，尤其当感染防控措施落实不到位时，多毒株共感染的发生比例会显著升高。

为验证TRACS算法应对该类难题的能力，本研究选取2020年初英格兰东部地区的1181份新冠样本中的37份开展分析，所有样本均采用Illumina深度扩增子测序进行检测。研究通过重复测序排除测序误差后，证实上述样本存在多种不同毒株。本研究将其与仅含单一毒株的混合样本进行对照，此类样本间的最小SNP距离理论值应为0。为探究TRACS在该数据集的应用价值，本研究分别采用TRACS算法与传统一致序列分析法计算SNP距离，并设置两组对比条件：是否过滤高突变位点、扩增子测序末端干扰区域等问题位点（图3a）。

图3 | SNP距离估算算法在模拟混合样本与实验混合样本中的准确度

a、包含多毒株样本的新冠病毒（SARS-CoV-2）传播网络。实线代表TRACS与传统一致序列分析法均可检出的传播关联；虚线为仅由TRACS识别的额外传播关联。b、39份含多毒株样本中，21组同源菌株样本对的推算SNP距离；其中每组样本对至少一份为多毒株混合样本。一致序列分析法以新冠全参考基因组范围内的优势等位基因作为判定依据；「原始分析方案」则未剔除高突变位点、易出错区域等常规过滤位点。TRACS可对所有样本对精准判定SNP距离为0。箱线图展示推算SNP数量的分布，中线为中位数，箱体边界代表四分位距（IQR），须状区间延伸至1.5倍四分位距。c、选取马埃拉难民营内不同受试者的3761份肺炎链球菌样本，结合LOESS平滑拟合，分析各组样本对间的预期中间宿主数量，及其居住地的地理距离关联。阴影区域为对应置信区间；箱线图展示中间宿主预期数量的中位数，箱体边界为四分位距，须状区间延伸至1.5倍四分位距。本研究剔除了分化时间早于难民营1984年建成时间的样本对。d、分析模式与c一致，仅展示796份样本中三类最常见肺炎链球菌GPSC谱系的地理距离关联。非多重耐药谱系GPSC 1未呈现明显地理分布规律，该谱系已知具备更长的定植携带周期。e、f、TRACS推算的恶性疟原虫SNP距离分布：批量测序样本与单细胞测序样本对比（e）、单细胞样本两两对比（f）。红色竖线为TRACS混合分布模型计算得出的SNP判定阈值。同一来源样本的单细胞测序结果存在大量近缘SNP距离，证明TRACS可精准区分恶性疟原虫混合感染中亲缘关系相近的基因组。

即便剔除干扰区域，当共有菌株为低丰度菌株时，基于一致序列的分析方法仍会持续高估样本间的SNP距离。相比之下，TRACS无需手动过滤异常位点，即可在所有场景中准确判定样本间无SNP差异（SNP=0）。图3b展示了结合地理位置信息、并设定混合样本同源菌株SNP距离为0时所推演的传播网络。虚线代表采用传统一致序列分析框架会遗漏的传播关联。该案例充分说明，TRACS不仅能够有效处理同一宿主内多菌株共存的情况，还可稳定规避测序误差与高突变位点带来的干扰——这类因素往往会在样本内部产生大量多态性位点。此外，对于宿主内部少见的菌株重组事件，TRACS同样具备良好耐受性。在该类场景下，传统一致序列方法会因忽略多态位点而高估SNP距离；而只要两种亲本菌株测序覆盖度充足，TRACS仍可准确识别样本间的共有菌株。

肺炎链球菌Streptococcus pneumoniae

TRACS算法的另一项附加优势，是可结合采样日期，推算两组样本之间的预期中间宿主数量。对于序列多样性较低的物种或谱系，采样日期可作为辅助信息，用于排除不存在传播关联的可能。

为验证该分析策略，本研究采用泰国某难民营的3761份鼻咽拭子样本，受试对象包含468名婴儿及其145名母亲。该批样本来自既往研究，已完成培养富集与肺炎链球菌群体Illumina深度测序。本研究基于全球肺炎链球菌测序项目构建定制参考基因组数据库，利用该数据集运行TRACS分析。参照既往研究，设定分子进化速率为每年5.3个SNP，传播世代时间为2个月。完成TRACS分析后，将所有样本对的预期中间宿主数量，与受试者住所间的地理距离进行关联分析（图3c、d）。尽管原始TransCluster算法也曾应用于该数据集，但该工具仅能输出直接传播等单一概率值，无法估算整体的预期中间宿主数。

即便该难民营占地面积仅2.4平方千米，地理距离与预期中间宿主数量之间仍存在显著相关性。但并非所有优势谱系均呈现这一规律。其中，全球肺炎链球菌测序聚类群1（GPSC 1）等常见多重耐药谱系，在营区内未表现出传播事件与地理距离的明显关联。已有研究证实，此类菌株的定植携带周期更长，会掩盖地理传播特征。由此推测，该区域整体的传播关联特征，主要由GPSC 20等传播速率更快、定植周期更短的谱系主导。明晰不同菌株谱系的传播驱动机制，对制定肺炎链球菌疾病的防控干预策略至关重要。

恶性疟原虫

主要寄生虫病原体的基因组偏大，限制了全基因组测序在疾病监测中的常规应用。但随着测序成本持续下降，全基因组测序正越来越多地用于追踪各类主要寄生虫种群，其中包括每年造成超五十万人死亡的恶性疟原虫。在疾病高发的流行地区，人体内频繁存在多种恶性疟原虫混合感染的情况。

为评估TRACS算法能否精准识别恶性疟原虫混合感染中的共有菌株，本研究采用马拉维奇克瓦瓦地区的49份恶性疟原虫阳性样本数据集。该数据集源自过往研究，同时开展了群体混合二代测序、单细胞测序及单克隆富集测序，共获得49份混合全基因组测序样本与509个单细胞基因组。尽管样本覆盖度有限，样本间直接传播的可能性较低，但结合批量测序与单细胞测序数据，可有效验证 TRACS 在混合样本中识别共有菌株的准确性。图3e、f展示了同源样本及异源样本间，单细胞基因组与批量测序样本的SNP距离分布。同一样本内部与不同样本之间的SNP距离界限清晰，证明 TRACS 可在该数据集中精准区分共有菌株。随着疟原虫全基因组测序逐步应用于公共卫生领域，TRACS 能够准确判断样本对之间是否存在近期传播关联。深入解析高流行区的传播动态，将有助于制定疟疾防控与最终根除的干预策略。

粪便移植三联样本的定植评估优化Improved engraftment estimates in faecal transplant triads

粪便微生物群移植（FMT）是将供体粪便样本移植至受体体内，给药方式多为口服胶囊。该疗法已被证实对感染性疾病、自身免疫病、移植物抗宿主病及癌症均具有临床获益。微生物药物的研发，往往需要从含数百至数千种菌株的复杂微生物组中，筛选具备有益功能的特定菌株。为进一步评估TRACS算法在宏基因组研究中的应用效能，本研究选取一组特征明确、样本间定植传播关系清晰的粪便移植数据集开展分析。研究纳入已发表的23组粪便移植三联样本，系统对比多种算法识别供体与受体间菌株定植关联的能力。这批宏基因组样本来源于三大患者队列，分别为艰难梭菌感染、炎症性肠病及复发性多重耐药感染人群，采集时间覆盖移植前后。

本研究对所有样本运行TRACS算法，并与StrainPhlAn、inStrain、StrainGE三款工具进行结果比对。由于StrainGE若遍历所有菌属的传播分析会消耗极高计算资源，因此本研究仅针对双歧杆菌开展对比。通过比对同一患者粪便移植后样本与不同队列样本，统计并推算菌株定植事件数量。研究同时采用TRACS内置混合分布法与传统约登指数，分别设定各物种专属SNP判定阈值。不同患者队列之间本应不存在共有菌株，因此跨队列检出的传播关联基本可判定为假阳性。与之相反，同一患者肠道内的菌株通常可长期稳定留存，可为算法对比提供真实参考基准。即便如此，菌株持续性分析结果仍可能产生与跨队列分析水平相近的假阳性率。

图4 | 粪便移植三联样本的菌株定植评估

a、各算法在粪便微生物移植（FMT）效应研究样本中，推算得到的可信传播样本对（共有菌株）数量。无关联受试者样本间的传播关联（红色）大概率为假阳性；与之相对，同一受试者移植后样本间的传播关联（黑色）多为真阳性，其错误发生率与无关联受试者组结果相近。研究采用混合分布法推算各物种专属SNP阈值，用于判定近期传播事件（详见方法部分）。参照Valles-Colomer等人研究、基于约登指数法绘制的对应对比图，详见扩展数据图 6。

b、主要双歧杆菌物种中，供体与受体移植后样本间成对SNP距离分布直方图（截断值设为500个SNP）。黑色竖线为TRACS混合分布法计算得出的SNP判定阈值。inStrain检出婴儿双歧杆菌的传播事件，但该菌株实际应为长双歧杆菌，属于UHGG基因组数据库的标注错误；而StrainGE未检出任何长双歧杆菌传播信号。

c、仅TRACS成功识别出单一供体向多名受体传播多株长双歧杆菌的案例。图中展示长双歧杆菌参考基因组某一区段内多态位点的等位基因丰度，不同颜色代表两株截然不同的菌株。红色菌株在受体样本SFMT_03_t15中为优势菌株，但在接受同一份供体粪便的另一受体样本SFMT_27_t15中则以低丰度形式存在。

StrainPhlAn的假阳性率最高，且在采用约登指数法筛选SNP阈值时，其假阳性率大幅上升（图4a、扩展数据图5与6）。与模拟实验结果一致，inStrain是结果最为保守的分析工具；当参考基因组与传播菌株基因组序列高度相似时，该工具表现良好。但正如前文模拟分析所示，一旦菌株与参考序列差异较大，或存在同一物种多菌株混合的情况，inStrain往往会高估SNP距离。相较其他算法，TRACS兼具高灵敏度与低假阳性率。

为进一步探究该现象，本研究以双歧杆菌属为研究对象，重点分析长双歧杆菌的传播规律。长双歧杆菌是婴儿肠道菌群中的常见定植先锋菌，也常被用作婴幼儿益生菌。明晰该菌株的定植留存与传播特征，对于研发高效的微生物组疗法至关重要。本研究中，inStrain与StrainPhlAn采用默认数据库运行；StrainGE则依据使用指南，导入双歧杆菌代表性参考基因组集进行分析；TRACS以基因组分类数据库（GTDB）作为参考库。

在长双歧杆菌传播事件的检测中，TRACS的灵敏度最高，共检出31组共有菌株，比灵敏度次优的StrainPhlAn（25组）多出6组。inStrain与StrainGE的分析结果最为保守，而StrainPhlAn检出的菌株共享比例最高。由于StrainPhlAn仅依赖少量标记基因开展分析，其检出的高共享比例中大概率包含大量假阳性结果。尽管参考数据库中收录了长双歧杆菌基因组，StrainGE仍未能在定植菌株中识别出该物种。与之不同，inStrain检出了6株移植来源的婴儿双歧杆菌；原因在于其默认的统一人类胃肠道基因组数据库（UHGG）中，长双歧杆菌与婴儿双歧杆菌被划分为同一物种。

区别于其他算法，TRACS能够稳定识别单一样本内多株长双歧杆菌共同定植的案例。图4c即为典型示例：两名接受同一供体粪便移植的患者体内，定植菌株的丰度占比完全相反。仅有TRACS可以准确判定两名患者携带同源菌株。

英国出生队列中的菌株传播与长期定植Strain transmission and persistence in a UK birth cohort

肠道菌群建立过程中的菌株传播与后续定植事件，会对个体儿童期及远期健康产生深远影响。尤其是剖宫产、抗生素治疗等早期人为干预所造成的菌群扰动，已被证实与哮喘、特应性疾病等多种健康问题密切相关。

为在菌株水平解析婴幼儿阶段细菌的传播规律与长期定植特征，本研究分析了英国婴儿微生物组研究中的1288名健康足月婴儿粪便样本。所有婴儿均在新生儿期（≤1月龄）至少采集一次粪便；后续对302名婴儿开展随访采样，其中包含29对双胞胎与1组三胞胎，采样月龄平均为8.75±1.98个月。研究同时收集了175名母亲的粪便样本，对应178名新生儿。本研究基于GTDB参考数据库运行TRACS算法，并通过混合分布法计算各物种SNP阈值，用于判定近期菌株传播事件。得益于TRACS的低错误率以及各医院严格的感染管控措施，无亲缘关系幼儿之间的菌株共享比例极低：同医院内为0.78%，跨医院为0.73%。值得注意的是，兄弟姐妹间的菌株共享率最高，反映出二者拥有高度相似的菌群定植背景，菌株可来自共同来源或相互传播。相较于顺产婴儿，剖宫产婴儿的菌株共享水平显著降低，与过往研究结论一致。普通双歧杆菌、长双歧杆菌、普通拟杆菌、狄氏副拟杆菌及大肠杆菌，在顺产与剖宫产母婴间的传播率差异最为显著。

图5 | 英国大型婴儿出生队列中母体菌株的传播与定植留存

a、柱状图展示潜在近期传播关联的样本对占比，及其对应的共有菌株数量。SNP距离与物种特异性阈值均由TRACS算法计算得出。不同宿主间的关联关系以不同颜色区分。跨医院样本对几乎无传播事件，直观印证了传播检测的低假阳性率。

b、175名母亲与178名婴儿之间，各物种的菌株传播率。数据以平均传播概率±95%置信区间呈现。基于母亲定植状态，通过二项分布模型计算单点估值与误差线（详见补充方法）。数据点按分娩方式着色（同图 a），直观体现分娩方式对不同物种母婴传播的差异化影响。下方横向柱状图标注了各物种可发生传播的有效母体定植样本对总数。

c、不同菌种从出生至出生后7天、21天及婴儿后期的菌株持续定植率。数据以平均定植留存概率±95%置信区间展示。采用与传播分析一致的二项分布模型计算数值与误差线。与出生后7天定植率存在显著差异的组别以红色标注（双侧卡方检验）。仅对初始携带该菌种、且对应时间点重采样样本量不少于20例的组别展示估算结果。

d、以一例婴儿（编号B00560）为例，展示短双歧杆菌多株菌株在体内的长期共存与动态留存现象。该结果无法被StrainPhlAn识别，因其仅能检测优势基因型。图中展示婴儿出生第4天处于中等丰度的1000个随机等位基因丰度变化：初期紫色菌株为优势菌群，至第7天、21天时，绿色菌株逐渐转变为优势菌株。

e、基于短双歧杆菌部分参考基因组区段，绘制上述（d 中）两株短双歧杆菌的单一位点等位基因丰度变化曲线。

除追踪宿主间的菌株传播外，TRACS还可监测同一宿主体内菌株的长期定植动态。研究发现，婴幼儿体内的菌株稳定性在不同菌种间存在显著差异（图5c）。大肠杆菌、粪肠球菌等常见致病菌的定植周期较短，通常在婴儿发育后期被清除或发生菌株替换。长双歧杆菌、短双歧杆菌等新生儿肠道优势初始定植菌，在婴儿出生后前3周的留存率较高，但在婴儿后期显著下降，这一现象大概率与饮食结构改变、母乳喂养比例降低有关。与之相反，部分经母体传播的共生菌，如两歧双歧杆菌，以及亲缘关系相近的嗜胆菌属、拟杆菌属与副拟杆菌属物种，在整个研究周期内均维持着较高的定植留存率。重要的是，相较于 StrainPhlAn，TRACS 额外多检出40.5%（49/121）的菌株共享事件。这表明婴儿体内普遍存在短双歧杆菌多菌株混合定植的现象，而仅识别优势基因型的 StrainPhlAn 等算法会遗漏该类信息（扩展数据图7）。例如，图5d、e展示了一名婴儿体内两株短双歧杆菌在三个时间点的持续定植变化：初期紫色菌株为优势菌株，平均等位基因频率为0.82（±0.081）；在后续时间点，该菌株占比分别降至0.063（±0.181）与0.249（±0.156）。综上，该研究证实TRACS能够精准识别人体微生物组中精细化的菌株传播与长期定植特征。

讨论Discussion

TRACS是一款通用化、模块化的分析算法，可基于宏基因组测序与单一物种群体测序数据，推断样本间近期菌株传播事件。该算法能够校正测序错误、测序覆盖度不均一及菌株间共有同源序列带来的干扰，并有效兼顾单一样本内同一物种的多菌株共存情况。本研究利用肺炎链球菌模拟数据集与实验室人工混合菌群样本开展验证，结果表明TRACS的分析准确度优于现有同类算法。TRACS具备良好的拓展性与通用性，可广泛适用于病毒、细菌、寄生虫等各类病原体研究，尤其适合尚无专属全基因组传播分析流程的物种。以疟原虫为例，尽管全基因组测序尚未常规用于其传播溯源，本研究结合单细胞基因组数据证实：TRACS无需开展复杂且易出错的序列反卷积步骤，即可精准识别不同样本间的恶性疟原虫共有菌株。除病原体监测外，TRACS还可用于解析人体微生物组的定植与携带动态。基于粪便微生物移植（FMT）宏基因组数据，本研究证实，TRACS能够检出供体与受体之间、以及婴幼儿纵向样本中低丰度菌株的传播事件，而这类信号往往被其他分析工具遗漏。本研究再次证实剖宫产会大幅削弱母婴间的细菌垂直传播，并发现不同菌种的定植能力与留存周期存在物种特异性差异。值得注意的是，粪肠球菌与纤维拟杆菌在剖宫产分娩模式下反而表现出更高的母婴传播率。与所有基因组传播研究一致，解读结果时需结合人群流行病学背景。例如，部分母婴携带的同源菌株，并非直接垂直传播，而是分别从医院环境或家属等未采样外源环境中独立获得。TRACS主要用于识别近期传播事件，但并不适用于高精度检测宿主体内变异，因此无法通过非同义/同义替换比值开展选择压力分析。同时，该算法仅能给出传播关联与SNP距离的下限估算，难以解析差异达数千SNP、进化时间跨度更长的亲缘关系，此类分析更适合分别采用inStrain、StrainPhlAn等工具。与多数低丰度变异检测算法类似，TRACS需要充足的测序深度以区分真实变异与测序误差，软件默认设置5倍最低覆盖度，保障菌株间距离计算的准确性。此外，和其他宏基因组传播推断方法一样，TRACS无法判定传播方向。建议先通过TRACS初筛潜在传播事件，再结合流行病学信息，采用运算量更高的系统发育方法进一步溯源。宏基因组测序与深度群体测序，突破了单一参考基因组的局限，为微生物传播与定植研究提供了强有力的技术手段。TRACS可同时跨物种、跨菌株开展整合分析，有助于深入揭示微生物的传播规律、定植建立过程及长期留存机制。

作者简介

Tonkin-Hill（第一作者&通讯作者）

Tonkin-Hill博士拥有概率与统计学硕士学位，并于剑桥大学联合威康桑格研究所完成了数学基因组学与医学方向的博士研究。目前任职于彼得・麦卡勒姆癌症中心，主要研究方向为统计学与计算方法的开发及应用，致力于探究人体与微生物之间的相互作用。其研究团队重点关注免疫功能低下癌症患者体内的微生物演化规律、菌株跨个体传播机制，以及药物治疗与外科干预带来的相关影响。该博士已研发多款广泛应用的微生物基因组分析计算工具。

翻译：曾美尹，中国农科院基因组所硕士在读

审核：朱志豪，广东医科大学，基因组所联合博士后

终审：刘永鑫，中国农科院基因组所，研究员/博导

排版：于乔，西北农林科技大学，硕士在读

宏基因组推荐