【ICLR26-王欢-西湖大学】MergeMix：一种用于视觉和多模态理解的统一增强范式-洪萨配资

文章：MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

代码：https://github.com/JinXins/MergeMix

单位：西湖大学、浙江大学计算机科学与技术学院

多模态大语言模型（MLLMs）在视觉问答、跨模态推理等场景中展现出强大能力，但模型对齐人类偏好和任务需求时面临两难困境：监督微调（SFT）虽稳定却依赖大量人工标注，泛化性不足；强化学习（RL）能捕捉偏好但计算成本高、训练不稳定。

同时，传统数据增强方法也存在明显短板：要么依赖随机操作导致数据质量不可控，要么无法将增强策略与模型训练目标有效绑定，难以兼顾效率与性能。无论是纯图像分类任务，还是多模态理解任务，都亟需一种能平衡扩展性、效率和对齐效果的统一解决方案。

MergeMix 提出以“令牌合并+偏好对齐”为核心的统一增强范式，巧妙衔接 SFT 与 RL 的优势，具体创新点包括：

令牌合并驱动的智能混合：通过 ViT 模型的令牌合并技术（ToMe）生成聚类注意力图，精准捕捉图像关键特征区域，再结合二分软匹配策略构建混合掩码，让混合样本既保留有效信息，又实现标签与混合比例的精准对齐。
软偏好边际的优化机制：将原始清晰图像定义为“优质答案（Winner）”，MergeMix 生成的混合图像定义为“非优选答案（Loser）”，并将混合比例作为软偏好分数，通过改进的混合 SimPO 损失函数实现自适应偏好调优，无需额外训练奖励模型。
跨任务统一框架：一套机制同时适配两类核心任务——图像分类中通过令牌合并与标签重缩放提升精度，多模态模型中通过偏好对构建实现高效对齐，打破传统方法的任务局限性。

在 CIFAR100 数据集上，MergeMix 对 DeiT-Small 模型实现 78.68% 的 Top-1 准确率，较 TransMix 提升 2.51%；对 ViT-Large 模型准确率达 76.19%，领先同类方法最高 4.79%。
斯坦福汽车数据集等细分类任务中，ViT-Base 模型准确率达 92.20%，刷新现有混合增强方法纪录。
效率方面，ImageNet-1K 任务中 FLOPs 仅 3.56G（较 TransMix 降低 0.68G），吞吐量达 1591.66 TP/s，兼顾轻量化与高速推理。

MergeMix 以令牌合并技术为核心，通过统一的增强与偏好对齐框架，既解决了传统数据增强的质量失控问题，又打破了 SFT 与 RL 在多模态对齐中的性能权衡，为视觉与跨模态模型提供了高效、稳定、通用的训练新范式。

Qwen3-32B多模态扩展潜力：Clawdbot平台未来支持图文混合问答架构预演 1. 当前集成架构：Qwen3-32B如何接入Clawdbot对话平台 Clawdbot平台当前已实现与Qwen3-32B大语言模型的深度对接，形成一套轻量、可控、可扩展的私有化AI服务链路。整个流…

李华

亲测SenseVoiceSmall镜像，上传音频秒出情感事件识别结果你有没有过这样的经历：会议录音堆成山，却没人愿意听；客服通话里藏着大量情绪线索，却只能靠人工抽查；短视频素材里突然响起的掌声、笑声、BGM&#…

李华

Clawdbot部署教程：基于Ollama私有化运行Qwen3-32B的GPU显存优化方案 1. 为什么需要这个部署方案你是不是也遇到过这样的问题：想在本地跑一个真正强大的大模型，比如Qwen3-32B，但一启动就报显存不足？明明显卡有24G&am…

李华

产品手册秒变智能助手？WeKnora应用全解析你是否遇到过这些场景： 客户突然来电问“这款设备的保修期从哪天开始算？”——而你手边只有200页PDF版《售后服务指南》； 新同事入职第一天，被要求快速掌握《内部报销流程V3.…

李华

Pi0模型部署教程：nohup后台运行app.log日志结构化分析方法 1. 为什么需要Pi0？一个能“看懂”并“指挥”机器人的模型你有没有想过，让机器人像人一样——先用眼睛观察环境，再听懂你的指令，最后精准执行动作&#xff…

李华

OllamaChatGLM3-6B-128K：生成结构化JSON数据效果实测你有没有遇到过这样的场景：需要把一段杂乱的用户输入、产品描述或者客服对话，快速转成标准格式的JSON数据？比如把“张三，男，32岁，北京朝阳…

李华