“预训练-微调”已经成为 AI 应用标配。然而这却带来一个难题:为不同任务微调的模型数量激增,维护成本与日俱增。我们如何将这些“专才”模型,高效地整合成一个强大的“多面手”?
模型融合为此提供了一条路径。模型融合无需昂贵的多任务联合训练,而是直接利用各任务的微调模型,通过轻量级的参数操作,将它们的能力“合并”成一个统一模型。
早期经典模型融合方法是 Task Arithmetic。它提出了“任务向量”的核心概念,即微调模型与预训练模型的参数差向量。将这些方向线性叠加,就能将多项能力融入同一个模型。
然而,Task Arithmetic 只在任务差异不大的时候能取得较好效果。当任务差异巨大时,不同的任务向量可能会互相冲突和抵消,导致融合后的模型性能不升反降。这便是模型融合领域的核心挑战:知识冲突。
本文精选三篇破解这一瓶颈的前沿工作,为读者在茫茫文献中提供一些方向。这些研究来自北京交通大学和南洋理工大学的研究者们,构成了一条清晰的技术演进脉络:
TATR:识别并筛选冲突维度,避免“对立方向”进入融合参数中;
CAT Merging:在更高维的参数空间中定位冲突的子空间,通过投影消除干扰;
LOT Merging:在识别出的冲突空间内,按奇异值向量的重要性,对融合权重进行动态调整,达到自适应的效果。
实验证明,这三种基于“冲突感知”的融合方法,均能有效缓解知识冲突问题,让模型融合在复杂多任务场景下表现得更加稳健、强大且可靠。
研究背景
在模型融合领域,Task Arithmetic 是最早被广泛关注的方法。它的核心思路很直观:给定一个预训练模型,以及在个任务上分别微调得到的模型,Task Arithmetic 将每个任务的微调过程视为一个“任务向量”:
通过将任务向量累加回预训练模型,得到一个具备多任务能力的融合模型:
这里是手工选择的缩放超参数。
▲ 图表1 任务向量的方向(a)或尺度(b)不一致时,可能会导致知识冲突
不过在更贴近真实应用的复杂场景里,Task Arithmetic 往往表现不够稳定。关键原因在于:不同任务的任务向量并不总是“相容”的。
如图 1(a),当两个任务的参数更新方向几乎相反时,简单相加会得到一个“折中方向”。这个方向既不够像任务 A,也不够像任务 B,结果是两边的有效信息都被削弱。
如图 1(b),如果任务 A 的向量幅度明显大于任务 B,那么融合后的更新会被“强任务”主导,小尺度任务的知识更容易被掩盖,导致性能下降。
这类现象统称为知识冲突(Knowledge Conflict)。
如果用任务自身的损失函数来衡量,知识冲突可以写成:
也就是:融合模型在任务上,相比该任务的专门微调模型,损失变差了多少。
接下来将介绍的三项近期工作,基本构成了一条很清晰的技术演化路线:从早期的维度级筛选,到更高维的空间投影/对齐,再到进一步的智能化自适应。它们的共同点是:用更细的控制手段来管理任务间的信息叠加,从而减少冲突、提升融合效率。
方法1:TATR —— 在“可信维度”内进行融合
论文标题:
Task Arithmetic in Trust Region: A Training-Free Model Merging Approach to Navigate Knowledge Conflicts
论文链接:
https://dl.acm.org/doi/10.1145/3746027.3755789
项目代码:
https://github.com/SunWenJu123/model-merging
收录会议:
ACM MM 2025
在传统 Task Arithmetic 默认“每个参数维度的更新都对融合有帮助”。相比之下,TATR 则先识别哪些维度可能产生冲突,再有选择地进行融合。
作者从任务间相互影响出发,定义“任务对任务的冲突程度”为:
两者的差别在于:第二个模型融合时不包含任务的向量。因此,因此这个差值可以直接理解为加入任务后,任务的损失是变好了还是变差了。
将 Task Arithmetic 的融合公式代入,并在附近做一阶泰勒近似,作者得出结论:
也就是说,任务是否会干扰任务,取决于它们的向量在梯度方向上的对齐程度。
哪些维度适合融合?作者任务向量在每个维度上按与梯度的关系分成三类:
正交分量:点积 ≈ 0,两者几乎独立,通常不引发冲突;
正分量:点积 > 0,与任务的梯度同向;
负分量:点积 < 0,与任务的梯度反向;
▲ 图表2 正交分量几乎没有知识冲突,而正分量和负分量则引发较多知识冲突。
然而,图 2 的实验分析表明,正交分量几乎不产生知识冲突,而而正/负分量都贡献了更多冲突。
这有点反直觉:很多人会以为“同向的正分量对融合更好”。但把两个同方向的向量相加之后,它们可能就直接越过了局部最优,导致性能下降。真正安全的融合的往往是那些低耦合、互不干扰的维度,也就是更接近正交的部分。
作者基于上述分析在维度空间定义“可信域”,筛选出最适合参与融合的维度:
其中,表示模型参数的某个维度,是阈值。若某维度在不同任务中发生强对立或强耦合,则会被排除在之外。
把可信域写成掩码,融合公式可写为:
方法2:CAT Merging —— 识别“冲突空间”,将任务向量投影到更安全的空间
论文标题:
CAT Merging: A training-free approach for resolving conflicts in model merging
论文链接:
https://arxiv.org/abs/2505.06977
项目代码:
https://github.com/SunWenJu123/model-merging
收录会议:
ICML 2025
TATR 已经能够在维度层面识别冲突,但当任务向量包含更复杂的结构(如矩阵参数)时,维度级的方法显得有些粗糙。因为矩阵参数中蕴含着更复杂的空间结构,可能存在的是子空间之间的冲突,而不仅是单一维度之间的冲突。
为此,作者进一步提出了 CAT Merging 方法。该方法通过识别任务间的冲突子空间,将任务向量投影到不会互相干扰的区域,从而避免知识冲突。
在 CAT Merging 中,研究者从线性模型的角度出发,其中表示任务的输入特征。目标是找到组冲突方向基底,然后将其他任务的任务向量投影到这些基底的补空间,来减少干扰:
这里是任务在任务的冲突空间中的分量,减去这部分后,相当于把任务的任务向量“移开”了可能引发冲突的区域。
为了让基底既能反映冲突,又不会损失有用知识,作者设计了如下优化目标:
这个目标函数包含两部分
1. 最小化干扰:第一项尽可能减少任务对任务的干扰(即投影后的损失)
2. 保持知识:第二项确保投影操作不会导致任务的知识损失。
展开后,优化目标简化如下:
等价为最大化问题:
这一步通过求解特征值问题来找到最能捕获冲突的方向。具体来说,通过构造如下矩阵:
其最大特征值对应的特征向量,即为最能捕获冲突的方向。通过选择多个最大特征值对应的特征向量,构建可构成冲突空间基底。
在识别各任务的冲突空间之后,CAT Merging 的融合公式为:
方法3:LOT Merging —— 不是简单粗暴的把冲突一删了之,而是根据重要性进行加权融合
论文标题:
Towards minimizing feature drift in model merging: Layer-wise task vector fusion for adaptive knowledge integration
论文链接:
https://arxiv.org/pdf/2505.23859?
项目代码:
https://github.com/SunWenJu123/model-merging
收录会议:
NeurIPS 2025
CAT Merging 的策略很明确:先定位冲突子空间,再把冲突分量投影出去(相当于直接舍弃)。这在不少场景里确实有效,但也有一个绕不开的问题——被投影操作舍弃的部分里也可能含有某些任务的关键信息。
换句话说,存在冲突的分量不一定全是坏的,它也可能是“有代价但必要”的知识。
LOT Merging 的思路更温和。它不再一刀切删除冲突分量,而是根据冲突强度与任务的信号强度做自适应加权。它试图在“少冲突”和“少丢信息”之间取得更好的平衡。
同样从线性模型出发:
其中表示任务的输入特征。
目标是找到一个最优融合向量,让融合模型能尽可能接近每个任务的微调结果:
代入线性模型即可得到更简洁的形式:
这是一个标准的凸二次优化问题,因此有闭式解:
这意味着是对所有任务向量的“最优加权平均”,权重来自各任务在其特征空间中的重要性(由控制)。最终,LOT Merging 融合将:
这种加权能缓解冲突。同一方向上如果任务之间冲突大,它们在最终解里的权重会被自动压低;冲突小的方向则会被保留更多。
为了直观理解,作者从两个极端情况进行理论分析:
最优状况下,任务特征空间是完全独立的(无冲突)。对每个任务做 SVD,。若任务之间的特征子空间互不重叠(即),则:
这时每个任务的向量会被“放回”自己的独立子空间中,互不干扰,并且可以达到 0 冲突:
最差状况下,所有任务特征空间完全重叠(强冲突)。若(所有任务的特征方向一致),解析解呈现为加权融合:
此时所有任务都挤在同一个“冲突空间”里,并且 LOT Merging 在奇异值方向按“特征强度”自适应加权:
某任务在该空间中越重要(大),则在最终融合向量中占的比重越高;
某任务的重要性较弱,则自动降低其影响,避免干扰主任务。
这是体现了 LOT Merging 的核心:在冲突空间里做软性融合,而不是硬性删除。
实验结果
在视觉与多模态的多任务融合实验中,研究者对 8-task 与 6-task 的多种模型进行了系统验证,模型结构包括 ViT-B/32、ViT-L/14 与 BLIP。结果显示本文所介绍的三种方法均有效缓解知识冲突,并显著提升了多任务融合性能。
在融合 ViT-B/32 的实验中,LOT Merging 的平均准确率达到 82.7%,超出 Task Arithmetic 13.6%。这意味着 LOT Merging不仅具备最强的冲突处理能力,也最大程度保留了各任务中的关键知识。
在更大规模的 ViT-L/14 上,LOT Merging 仍然展现出稳健优势。其平均准确率达到 90.5%,较 Task Arithmetic 提升 6%。更大的模型意味着任务空间更复杂,但 LOT Merging 在此条件下依旧保持领先,显示出优异的泛化与稳健性。
在融合 BLIP 模型的实验中,LOT Merging 在 5 个任务上取得最佳性能,而 CAT Merging 在 2 个任务上获得最优结果。这说明 LOT Merging 对大多数任务更为稳健,而 CAT Merging 在特定任务上的投影策略亦具有独特优势。
整体而言,这三种方法共同构筑了更高效、更稳定的融合路径,大幅缓解了此前模型融合中困扰已久的知识冲突问题。
总结与展望
本文介绍的 TATR、CAT Merging 与 LOT Merging,从不同层面解决了知识冲突问题:
TATR:从维度层面剔除冲突维度
CAT Merging:从子空间层面,利用投影操作,剔除冲突方向
LOT Merging:用软性加权融合取代硬性删除
它们共同让模型融合从以往的“粗放式叠加”进化为更精细的协同融合,显著提升多任务性能与稳健性。
随着多任务大模型的广泛应用,未来的模型融合将不再局限于对同质任务进行整合,而会采取更加动态和灵活的机制,能够根据任务的不同结构、特征分布以及具体的应用场景进行自适应的融合。
这种未来的融合机制将具有更强的适应性和可扩展性,能够应对更加复杂和多样化的多任务学习场景。
本文提出的三种方法为这种未来奠定了基础,为智能系统的高效协作、知识整合与能力拓展提供了全新的视角和可能性。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
·