为什么你的多任务模型总在“打架”？解决融合冲突的终极方案来了-洪萨配资

“预训练-微调”已经成为 AI 应用标配。然而这却带来一个难题：为不同任务微调的模型数量激增，维护成本与日俱增。我们如何将这些“专才”模型，高效地整合成一个强大的“多面手”？

模型融合为此提供了一条路径。模型融合无需昂贵的多任务联合训练，而是直接利用各任务的微调模型，通过轻量级的参数操作，将它们的能力“合并”成一个统一模型。

早期经典模型融合方法是 Task Arithmetic。它提出了“任务向量”的核心概念，即微调模型与预训练模型的参数差向量。将这些方向线性叠加，就能将多项能力融入同一个模型。

然而，Task Arithmetic 只在任务差异不大的时候能取得较好效果。当任务差异巨大时，不同的任务向量可能会互相冲突和抵消，导致融合后的模型性能不升反降。这便是模型融合领域的核心挑战：知识冲突。

本文精选三篇破解这一瓶颈的前沿工作，为读者在茫茫文献中提供一些方向。这些研究来自北京交通大学和南洋理工大学的研究者们，构成了一条清晰的技术演进脉络：

TATR：识别并筛选冲突维度，避免“对立方向”进入融合参数中；
CAT Merging：在更高维的参数空间中定位冲突的子空间，通过投影消除干扰；
LOT Merging：在识别出的冲突空间内，按奇异值向量的重要性，对融合权重进行动态调整，达到自适应的效果。

实验证明，这三种基于“冲突感知”的融合方法，均能有效缓解知识冲突问题，让模型融合在复杂多任务场景下表现得更加稳健、强大且可靠。

研究背景

在模型融合领域，Task Arithmetic 是最早被广泛关注的方法。它的核心思路很直观：给定一个预训练模型，以及在个任务上分别微调得到的模型，Task Arithmetic 将每个任务的微调过程视为一个“任务向量”：

通过将任务向量累加回预训练模型，得到一个具备多任务能力的融合模型：

这里是手工选择的缩放超参数。

▲ 图表1 任务向量的方向（a）或尺度（b）不一致时，可能会导致知识冲突

不过在更贴近真实应用的复杂场景里，Task Arithmetic 往往表现不够稳定。关键原因在于：不同任务的任务向量并不总是“相容”的。

如图 1（a），当两个任务的参数更新方向几乎相反时，简单相加会得到一个“折中方向”。这个方向既不够像任务 A，也不够像任务 B，结果是两边的有效信息都被削弱。

如图 1（b），如果任务 A 的向量幅度明显大于任务 B，那么融合后的更新会被“强任务”主导，小尺度任务的知识更容易被掩盖，导致性能下降。

这类现象统称为知识冲突（Knowledge Conflict）。

如果用任务自身的损失函数来衡量，知识冲突可以写成：

也就是：融合模型在任务上，相比该任务的专门微调模型，损失变差了多少。

接下来将介绍的三项近期工作，基本构成了一条很清晰的技术演化路线：从早期的维度级筛选，到更高维的空间投影/对齐，再到进一步的智能化自适应。它们的共同点是：用更细的控制手段来管理任务间的信息叠加，从而减少冲突、提升融合效率。

方法1：TATR —— 在“可信维度”内进行融合

论文标题：

Task Arithmetic in Trust Region: A Training-Free Model Merging Approach to Navigate Knowledge Conflicts

论文链接：

https://dl.acm.org/doi/10.1145/3746027.3755789

项目代码：

https://github.com/SunWenJu123/model-merging

收录会议：

ACM MM 2025

在传统 Task Arithmetic 默认“每个参数维度的更新都对融合有帮助”。相比之下，TATR 则先识别哪些维度可能产生冲突，再有选择地进行融合。

作者从任务间相互影响出发，定义“任务对任务的冲突程度”为：

两者的差别在于：第二个模型融合时不包含任务的向量。因此，因此这个差值可以直接理解为加入任务后，任务的损失是变好了还是变差了。

将 Task Arithmetic 的融合公式代入，并在附近做一阶泰勒近似，作者得出结论：

也就是说，任务是否会干扰任务，取决于它们的向量在梯度方向上的对齐程度。

哪些维度适合融合？作者任务向量在每个维度上按与梯度的关系分成三类：

正交分量：点积 ≈ 0，两者几乎独立，通常不引发冲突；
正分量：点积 > 0，与任务的梯度同向；
负分量：点积 < 0，与任务的梯度反向；

▲ 图表2 正交分量几乎没有知识冲突，而正分量和负分量则引发较多知识冲突。

然而，图 2 的实验分析表明，正交分量几乎不产生知识冲突，而而正/负分量都贡献了更多冲突。

这有点反直觉：很多人会以为“同向的正分量对融合更好”。但把两个同方向的向量相加之后，它们可能就直接越过了局部最优，导致性能下降。真正安全的融合的往往是那些低耦合、互不干扰的维度，也就是更接近正交的部分。

作者基于上述分析在维度空间定义“可信域”，筛选出最适合参与融合的维度：

其中，表示模型参数的某个维度，是阈值。若某维度在不同任务中发生强对立或强耦合，则会被排除在之外。

把可信域写成掩码，融合公式可写为：

方法2：CAT Merging —— 识别“冲突空间”，将任务向量投影到更安全的空间

论文标题：

CAT Merging: A training-free approach for resolving conflicts in model merging

论文链接：

https://arxiv.org/abs/2505.06977

项目代码：

https://github.com/SunWenJu123/model-merging

收录会议：

ICML 2025

TATR 已经能够在维度层面识别冲突，但当任务向量包含更复杂的结构（如矩阵参数）时，维度级的方法显得有些粗糙。因为矩阵参数中蕴含着更复杂的空间结构，可能存在的是子空间之间的冲突，而不仅是单一维度之间的冲突。

为此，作者进一步提出了 CAT Merging 方法。该方法通过识别任务间的冲突子空间，将任务向量投影到不会互相干扰的区域，从而避免知识冲突。

在 CAT Merging 中，研究者从线性模型的角度出发，其中表示任务的输入特征。目标是找到组冲突方向基底，然后将其他任务的任务向量投影到这些基底的补空间，来减少干扰：

这里是任务在任务的冲突空间中的分量，减去这部分后，相当于把任务的任务向量“移开”了可能引发冲突的区域。

为了让基底既能反映冲突，又不会损失有用知识，作者设计了如下优化目标：

这个目标函数包含两部分

1. 最小化干扰：第一项尽可能减少任务对任务的干扰（即投影后的损失）

2. 保持知识：第二项确保投影操作不会导致任务的知识损失。

展开后，优化目标简化如下：

等价为最大化问题：

这一步通过求解特征值问题来找到最能捕获冲突的方向。具体来说，通过构造如下矩阵：

其最大特征值对应的特征向量，即为最能捕获冲突的方向。通过选择多个最大特征值对应的特征向量，构建可构成冲突空间基底。

在识别各任务的冲突空间之后，CAT Merging 的融合公式为：

方法3：LOT Merging —— 不是简单粗暴的把冲突一删了之，而是根据重要性进行加权融合

论文标题：

Towards minimizing feature drift in model merging: Layer-wise task vector fusion for adaptive knowledge integration

论文链接：

https://arxiv.org/pdf/2505.23859?

项目代码：

https://github.com/SunWenJu123/model-merging

收录会议：

NeurIPS 2025

CAT Merging 的策略很明确：先定位冲突子空间，再把冲突分量投影出去（相当于直接舍弃）。这在不少场景里确实有效，但也有一个绕不开的问题——被投影操作舍弃的部分里也可能含有某些任务的关键信息。

换句话说，存在冲突的分量不一定全是坏的，它也可能是“有代价但必要”的知识。

LOT Merging 的思路更温和。它不再一刀切删除冲突分量，而是根据冲突强度与任务的信号强度做自适应加权。它试图在“少冲突”和“少丢信息”之间取得更好的平衡。

同样从线性模型出发：

其中表示任务的输入特征。

目标是找到一个最优融合向量，让融合模型能尽可能接近每个任务的微调结果：

代入线性模型即可得到更简洁的形式：

这是一个标准的凸二次优化问题，因此有闭式解：

这意味着是对所有任务向量的“最优加权平均”，权重来自各任务在其特征空间中的重要性（由控制）。最终，LOT Merging 融合将：

这种加权能缓解冲突。同一方向上如果任务之间冲突大，它们在最终解里的权重会被自动压低；冲突小的方向则会被保留更多。

为了直观理解，作者从两个极端情况进行理论分析：

最优状况下，任务特征空间是完全独立的（无冲突）。对每个任务做 SVD，。若任务之间的特征子空间互不重叠（即），则：

这时每个任务的向量会被“放回”自己的独立子空间中，互不干扰，并且可以达到 0 冲突：

最差状况下，所有任务特征空间完全重叠（强冲突）。若（所有任务的特征方向一致），解析解呈现为加权融合：

此时所有任务都挤在同一个“冲突空间”里，并且 LOT Merging 在奇异值方向按“特征强度”自适应加权：

某任务在该空间中越重要（大），则在最终融合向量中占的比重越高；
某任务的重要性较弱，则自动降低其影响，避免干扰主任务。

这是体现了 LOT Merging 的核心：在冲突空间里做软性融合，而不是硬性删除。

实验结果

在视觉与多模态的多任务融合实验中，研究者对 8-task 与 6-task 的多种模型进行了系统验证，模型结构包括 ViT-B/32、ViT-L/14 与 BLIP。结果显示本文所介绍的三种方法均有效缓解知识冲突，并显著提升了多任务融合性能。

在融合 ViT-B/32 的实验中，LOT Merging 的平均准确率达到 82.7%，超出 Task Arithmetic 13.6%。这意味着 LOT Merging不仅具备最强的冲突处理能力，也最大程度保留了各任务中的关键知识。

在更大规模的 ViT-L/14 上，LOT Merging 仍然展现出稳健优势。其平均准确率达到 90.5%，较 Task Arithmetic 提升 6%。更大的模型意味着任务空间更复杂，但 LOT Merging 在此条件下依旧保持领先，显示出优异的泛化与稳健性。

在融合 BLIP 模型的实验中，LOT Merging 在 5 个任务上取得最佳性能，而 CAT Merging 在 2 个任务上获得最优结果。这说明 LOT Merging 对大多数任务更为稳健，而 CAT Merging 在特定任务上的投影策略亦具有独特优势。

整体而言，这三种方法共同构筑了更高效、更稳定的融合路径，大幅缓解了此前模型融合中困扰已久的知识冲突问题。

总结与展望

本文介绍的 TATR、CAT Merging 与 LOT Merging，从不同层面解决了知识冲突问题：

TATR：从维度层面剔除冲突维度
CAT Merging：从子空间层面，利用投影操作，剔除冲突方向
LOT Merging：用软性加权融合取代硬性删除

它们共同让模型融合从以往的“粗放式叠加”进化为更精细的协同融合，显著提升多任务性能与稳健性。

随着多任务大模型的广泛应用，未来的模型融合将不再局限于对同质任务进行整合，而会采取更加动态和灵活的机制，能够根据任务的不同结构、特征分布以及具体的应用场景进行自适应的融合。

这种未来的融合机制将具有更强的适应性和可扩展性，能够应对更加复杂和多样化的多任务学习场景。

本文提出的三种方法为这种未来奠定了基础，为智能系统的高效协作、知识整合与能力拓展提供了全新的视角和可能性。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以markdown格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

为什么你的多任务模型总在“打架”？解决融合冲突的终极方案来了

Kotaemon支持问答对自动聚类，发现潜在知识盲区

Graphiti：超越传统RAG，构建时间感知型知识图谱的完整指南

FaceFusion支持动作捕捉数据导入，驱动更精准

FaceFusion人脸交换工具为何成为开发者新宠？

FaceFusion提供按需计费的Token购买模式

FaceFusion镜像优势全揭秘：速度快、保真度高、易集成