news 2026/5/8 13:58:41

为什么你的多任务模型总在“打架”?解决融合冲突的终极方案来了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
为什么你的多任务模型总在“打架”?解决融合冲突的终极方案来了

“预训练-微调”已经成为 AI 应用标配。然而这却带来一个难题:为不同任务微调的模型数量激增,维护成本与日俱增。我们如何将这些“专才”模型,高效地整合成一个强大的“多面手”?

模型融合为此提供了一条路径。模型融合无需昂贵的多任务联合训练,而是直接利用各任务的微调模型,通过轻量级的参数操作,将它们的能力“合并”成一个统一模型。

早期经典模型融合方法是 Task Arithmetic。它提出了“任务向量”的核心概念,即微调模型与预训练模型的参数差向量。将这些方向线性叠加,就能将多项能力融入同一个模型。

然而,Task Arithmetic 只在任务差异不大的时候能取得较好效果。当任务差异巨大时,不同的任务向量可能会互相冲突和抵消,导致融合后的模型性能不升反降。这便是模型融合领域的核心挑战:知识冲突。

本文精选三篇破解这一瓶颈的前沿工作,为读者在茫茫文献中提供一些方向。这些研究来自北京交通大学和南洋理工大学的研究者们,构成了一条清晰的技术演进脉络:

  • TATR:识别并筛选冲突维度,避免“对立方向”进入融合参数中;

  • CAT Merging:在更高维的参数空间中定位冲突的子空间,通过投影消除干扰;

  • LOT Merging:在识别出的冲突空间内,按奇异值向量的重要性,对融合权重进行动态调整,达到自适应的效果。

实验证明,这三种基于“冲突感知”的融合方法,均能有效缓解知识冲突问题,让模型融合在复杂多任务场景下表现得更加稳健、强大且可靠。

研究背景

在模型融合领域,Task Arithmetic 是最早被广泛关注的方法。它的核心思路很直观:给定一个预训练模型,以及在个任务上分别微调得到的模型,Task Arithmetic 将每个任务的微调过程视为一个“任务向量”:

通过将任务向量累加回预训练模型,得到一个具备多任务能力的融合模型:

这里是手工选择的缩放超参数。

▲ 图表1 任务向量的方向(a)或尺度(b)不一致时,可能会导致知识冲突

不过在更贴近真实应用的复杂场景里,Task Arithmetic 往往表现不够稳定。关键原因在于:不同任务的任务向量并不总是“相容”的。

如图 1(a),当两个任务的参数更新方向几乎相反时,简单相加会得到一个“折中方向”。这个方向既不够像任务 A,也不够像任务 B,结果是两边的有效信息都被削弱。

如图 1(b),如果任务 A 的向量幅度明显大于任务 B,那么融合后的更新会被“强任务”主导,小尺度任务的知识更容易被掩盖,导致性能下降。

这类现象统称为知识冲突(Knowledge Conflict)。

如果用任务自身的损失函数来衡量,知识冲突可以写成:

也就是:融合模型在任务上,相比该任务的专门微调模型,损失变差了多少。

接下来将介绍的三项近期工作,基本构成了一条很清晰的技术演化路线:从早期的维度级筛选,到更高维的空间投影/对齐,再到进一步的智能化自适应。它们的共同点是:用更细的控制手段来管理任务间的信息叠加,从而减少冲突、提升融合效率。

方法1:TATR —— 在“可信维度”内进行融合

论文标题:

Task Arithmetic in Trust Region: A Training-Free Model Merging Approach to Navigate Knowledge Conflicts

论文链接:

https://dl.acm.org/doi/10.1145/3746027.3755789

项目代码:

https://github.com/SunWenJu123/model-merging

收录会议:

ACM MM 2025

在传统 Task Arithmetic 默认“每个参数维度的更新都对融合有帮助”。相比之下,TATR 则先识别哪些维度可能产生冲突,再有选择地进行融合。

作者从任务间相互影响出发,定义“任务对任务的冲突程度”为:

两者的差别在于:第二个模型融合时不包含任务的向量。因此,因此这个差值可以直接理解为加入任务后,任务的损失是变好了还是变差了。

将 Task Arithmetic 的融合公式代入,并在附近做一阶泰勒近似,作者得出结论:

也就是说,任务是否会干扰任务,取决于它们的向量在梯度方向上的对齐程度。

哪些维度适合融合?作者任务向量在每个维度上按与梯度的关系分成三类:

  • 正交分量:点积 ≈ 0,两者几乎独立,通常不引发冲突;

  • 正分量:点积 > 0,与任务的梯度同向;

  • 负分量:点积 < 0,与任务的梯度反向;

▲ 图表2 正交分量几乎没有知识冲突,而正分量和负分量则引发较多知识冲突。

然而,图 2 的实验分析表明,正交分量几乎不产生知识冲突,而而正/负分量都贡献了更多冲突。

这有点反直觉:很多人会以为“同向的正分量对融合更好”。但把两个同方向的向量相加之后,它们可能就直接越过了局部最优,导致性能下降。真正安全的融合的往往是那些低耦合、互不干扰的维度,也就是更接近正交的部分。

作者基于上述分析在维度空间定义“可信域”,筛选出最适合参与融合的维度:

其中,表示模型参数的某个维度,是阈值。若某维度在不同任务中发生强对立或强耦合,则会被排除在之外。

把可信域写成掩码,融合公式可写为:

方法2:CAT Merging —— 识别“冲突空间”,将任务向量投影到更安全的空间

论文标题:

CAT Merging: A training-free approach for resolving conflicts in model merging

论文链接:

https://arxiv.org/abs/2505.06977

项目代码:

https://github.com/SunWenJu123/model-merging

收录会议:

ICML 2025

TATR 已经能够在维度层面识别冲突,但当任务向量包含更复杂的结构(如矩阵参数)时,维度级的方法显得有些粗糙。因为矩阵参数中蕴含着更复杂的空间结构,可能存在的是子空间之间的冲突,而不仅是单一维度之间的冲突。

为此,作者进一步提出了 CAT Merging 方法。该方法通过识别任务间的冲突子空间,将任务向量投影到不会互相干扰的区域,从而避免知识冲突。

在 CAT Merging 中,研究者从线性模型的角度出发,其中表示任务的输入特征。目标是找到组冲突方向基底,然后将其他任务的任务向量投影到这些基底的补空间,来减少干扰:

这里是任务在任务的冲突空间中的分量,减去这部分后,相当于把任务的任务向量“移开”了可能引发冲突的区域。

为了让基底既能反映冲突,又不会损失有用知识,作者设计了如下优化目标:

这个目标函数包含两部分

1. 最小化干扰:第一项尽可能减少任务对任务的干扰(即投影后的损失)

2. 保持知识:第二项确保投影操作不会导致任务的知识损失。

展开后,优化目标简化如下:

等价为最大化问题:

这一步通过求解特征值问题来找到最能捕获冲突的方向。具体来说,通过构造如下矩阵:

其最大特征值对应的特征向量,即为最能捕获冲突的方向。通过选择多个最大特征值对应的特征向量,构建可构成冲突空间基底

在识别各任务的冲突空间之后,CAT Merging 的融合公式为:

方法3:LOT Merging —— 不是简单粗暴的把冲突一删了之,而是根据重要性进行加权融合

论文标题:

Towards minimizing feature drift in model merging: Layer-wise task vector fusion for adaptive knowledge integration

论文链接:

https://arxiv.org/pdf/2505.23859?

项目代码:

https://github.com/SunWenJu123/model-merging

收录会议:

NeurIPS 2025

CAT Merging 的策略很明确:先定位冲突子空间,再把冲突分量投影出去(相当于直接舍弃)。这在不少场景里确实有效,但也有一个绕不开的问题——被投影操作舍弃的部分里也可能含有某些任务的关键信息。

换句话说,存在冲突的分量不一定全是坏的,它也可能是“有代价但必要”的知识。

LOT Merging 的思路更温和。它不再一刀切删除冲突分量,而是根据冲突强度与任务的信号强度做自适应加权。它试图在“少冲突”和“少丢信息”之间取得更好的平衡。

同样从线性模型出发:

其中表示任务的输入特征。

目标是找到一个最优融合向量,让融合模型能尽可能接近每个任务的微调结果:

代入线性模型即可得到更简洁的形式:

这是一个标准的凸二次优化问题,因此有闭式解:

这意味着是对所有任务向量的“最优加权平均”,权重来自各任务在其特征空间中的重要性(由控制)。最终,LOT Merging 融合将:

这种加权能缓解冲突。同一方向上如果任务之间冲突大,它们在最终解里的权重会被自动压低;冲突小的方向则会被保留更多。

为了直观理解,作者从两个极端情况进行理论分析:

最优状况下,任务特征空间是完全独立的(无冲突)。对每个任务做 SVD,。若任务之间的特征子空间互不重叠(即),则:

这时每个任务的向量会被“放回”自己的独立子空间中,互不干扰,并且可以达到 0 冲突:

最差状况下,所有任务特征空间完全重叠(强冲突)。若(所有任务的特征方向一致),解析解呈现为加权融合:

此时所有任务都挤在同一个“冲突空间”里,并且 LOT Merging 在奇异值方向按“特征强度”自适应加权:

  • 某任务在该空间中越重要(大),则在最终融合向量中占的比重越高;

  • 某任务的重要性较弱,则自动降低其影响,避免干扰主任务。

这是体现了 LOT Merging 的核心:在冲突空间里做软性融合,而不是硬性删除。

实验结果

在视觉与多模态的多任务融合实验中,研究者对 8-task 与 6-task 的多种模型进行了系统验证,模型结构包括 ViT-B/32、ViT-L/14 与 BLIP。结果显示本文所介绍的三种方法均有效缓解知识冲突,并显著提升了多任务融合性能。

在融合 ViT-B/32 的实验中,LOT Merging 的平均准确率达到 82.7%,超出 Task Arithmetic 13.6%。这意味着 LOT Merging不仅具备最强的冲突处理能力,也最大程度保留了各任务中的关键知识。

在更大规模的 ViT-L/14 上,LOT Merging 仍然展现出稳健优势。其平均准确率达到 90.5%,较 Task Arithmetic 提升 6%。更大的模型意味着任务空间更复杂,但 LOT Merging 在此条件下依旧保持领先,显示出优异的泛化与稳健性。

在融合 BLIP 模型的实验中,LOT Merging 在 5 个任务上取得最佳性能,而 CAT Merging 在 2 个任务上获得最优结果。这说明 LOT Merging 对大多数任务更为稳健,而 CAT Merging 在特定任务上的投影策略亦具有独特优势。

整体而言,这三种方法共同构筑了更高效、更稳定的融合路径,大幅缓解了此前模型融合中困扰已久的知识冲突问题。

总结与展望

本文介绍的 TATR、CAT Merging 与 LOT Merging,从不同层面解决了知识冲突问题:

  • TATR:从维度层面剔除冲突维度

  • CAT Merging:从子空间层面,利用投影操作,剔除冲突方向

  • LOT Merging:用软性加权融合取代硬性删除

它们共同让模型融合从以往的“粗放式叠加”进化为更精细的协同融合,显著提升多任务性能与稳健性。

随着多任务大模型的广泛应用,未来的模型融合将不再局限于对同质任务进行整合,而会采取更加动态和灵活的机制,能够根据任务的不同结构、特征分布以及具体的应用场景进行自适应的融合。

这种未来的融合机制将具有更强的适应性和可扩展性,能够应对更加复杂和多样化的多任务学习场景。

本文提出的三种方法为这种未来奠定了基础,为智能系统的高效协作、知识整合与能力拓展提供了全新的视角和可能性。

更多阅读

#投 稿 通 道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注

• 稿件建议以markdown格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬投稿通道:

• 投稿邮箱:hr@paperweekly.site

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 5:21:07

Kotaemon支持问答对自动聚类,发现潜在知识盲区

Kotaemon支持问答对自动聚类&#xff0c;发现潜在知识盲区在智能客服系统日均处理数万条用户提问的今天&#xff0c;一个现实问题摆在企业面前&#xff1a;即便知识库已有上千条FAQ&#xff0c;仍有不少用户反馈“找不到答案”。这些未被命中的问题去哪儿了&#xff1f;它们是偶…

作者头像 李华
网站建设 2026/5/8 10:05:30

Graphiti:超越传统RAG,构建时间感知型知识图谱的完整指南

Graphiti是专为动态环境AI智能体设计的知识图谱框架&#xff0c;能持续整合用户交互与各类数据&#xff0c;形成可查询的知识图谱。相比传统RAG&#xff0c;它提供实时增量更新、双时间数据模型、高效混合检索等功能&#xff0c;支持自定义实体定义和大规模数据集管理。可与多种…

作者头像 李华
网站建设 2026/5/3 19:17:53

FaceFusion支持动作捕捉数据导入,驱动更精准

FaceFusion 支持动作捕捉数据导入&#xff0c;驱动更精准 在虚拟内容创作日益普及的今天&#xff0c;人脸替换技术早已不再是简单的“换脸娱乐”。从电影特效到虚拟主播&#xff0c;从 AI 配音演员到元宇宙数字人&#xff0c;人们对换脸结果的要求已从“像”转向“真”——不仅…

作者头像 李华
网站建设 2026/5/4 9:44:50

FaceFusion人脸交换工具为何成为开发者新宠?

FaceFusion人脸交换工具为何成为开发者新宠&#xff1f; 在AI生成内容&#xff08;AIGC&#xff09;席卷创意产业的今天&#xff0c;视频创作者、独立开发者乃至影视后期团队都在寻找一种既能保证视觉质量又能快速集成的图像合成方案。而在这股浪潮中&#xff0c;FaceFusion悄然…

作者头像 李华
网站建设 2026/5/3 8:05:39

FaceFusion提供按需计费的Token购买模式

FaceFusion边缘人脸融合模块的低功耗架构与资源计量机制在智能安防、嵌入式视觉和移动终端日益融合AI能力的今天&#xff0c;如何在有限功耗下实现高效的人脸融合处理&#xff0c;成为边缘计算设备设计中的一项关键挑战。传统云端人脸融合服务虽然算力充沛&#xff0c;但面临延…

作者头像 李华
网站建设 2026/5/1 4:33:59

FaceFusion镜像优势全揭秘:速度快、保真度高、易集成

FaceFusion镜像优势全揭秘&#xff1a;速度快、保真度高、易集成 在短视频与虚拟内容爆发式增长的今天&#xff0c;AI驱动的人脸替换技术早已不再只是“换脸玩梗”的玩具。从影视特效预演到数字人直播&#xff0c;从个性化教育形象到跨语言虚拟主播&#xff0c;高质量、低延迟的…

作者头像 李华