简介
文章提出推理引导嵌入(RGE)新方法,将多模态大模型的生成式推理能力融入嵌入提取过程。方法分为两步:先生成结构化推理分析,再提取特征表示。通过联合训练语言建模损失和对比损失,避免信息泄漏问题。实验表明,RGE在MMEB数据集上表现优异,超越了参数规模更大的模型,证明了自生成推理过程对提升嵌入质量的有效性。
简介
近期研究发现,多模态大语言模型在作为嵌入提取器方面表现出色。然而,目前的主流方法大多将嵌入提取过程视为一个简单的、直接的编码步骤。这种做法忽略了一个关键事实:多模态大语言模型本身具备强大的生成式推理能力,而这种能力完全可以被挖掘出来,用以提升最终生成的表示质量。
针对以上问题,我们探索了如何将“推理”过程显式地融入到嵌入生成中。为此,我们提出了一种名为**推理引导嵌入(Reasoning Guided Embeddings, RGE)**的新方法。
RGE方法的核心在于,它保留了多模态大语言模型的生成式推理过程,并将其与对比学习相结合。具体来说,我们的方法分为两步:
- 生成结构化推理:首先,模型会根据给定的指令,进行一步结构化的推理分析(Rationale Generation),生成对输入内容的理解与解释。
- 提取表示:然后,在模型完成上述推理过程之后,我们再从其内部状态中提取最终的特征表示。
图1. 我们的方法与非推理基线的对比。
方法
标准推理过程生成
为了让多模态大模型能够生成有效提升嵌入质量的推理过程,我们首先为其提供了经过监督的正确推理示例。为此,我们构建了一套标准推理过程(oracle rationales),这些推理过程基于查询(query)及其真实目标(ground-truth target)生成。
具体地说,我们在现有的MMEB训练样本基础上,为每一组查询-目标对(, )生成一个标准推理过程 (),用于解释为何该目标能正确匹配查询。这些标准推理过程作为联合训练中的监督语言建模目标。值得注意的是,这一过程未引入任何外部数据,只是在现有的查询-目标对基础上,补充了对应的标准推理过程。
图2 数据集整理流程。我们将查询及其真实目标t输入到多模态大模型推理生成器中,并结合针对具体任务和模态设计的提示词,生成格式规范的标准推理过程 ()。
如图2所示,对于MMEB中的各类下游任务,包括分类、视觉问答、检索和视觉定位等,我们为不同模态组合手动设计了专属提示词。每个提示词开头明确指定模型的专家身份,并简要说明任务目的和推理目标。此外,我们还对模型输出提出了清晰的格式要求。模型需通过自然语言逻辑分析,基于对查询图像和文本的细致理解,生成标准推理过程。这一分析过程涵盖了多层次描述,包括整体描述、目标级细节以及基于世界知识的任务相关思考。最后,每个提示词都会附有一个示例,帮助模型理解预期输出,即给出连贯的推理过程,解释如何完成指定任务。
模型推理设置
不同的推理模式。在推理阶段,我们希望模型支持两种模式:
- 当无需推理时,直接提取嵌入向量;
- 当推理有助于提升效果时,生成推理过程后再提取嵌入。
具体而言,若在输入末尾预先插入特殊标记,模型会立即将多模态输入映射到该标记处,我们则以其最终层的隐藏状态作为嵌入向量。如果未预填,模型则进入生成式推理模式:首先生成推理过程,遇到自生成的后终止,然后通过再向前推理一步(复用KV缓存),获取该标记的隐藏状态,作为最终的嵌入。这使得同一模型能够灵活实现直接池化或先推理再池化,无需切换模型结构。
在实际操作中,我们通常在查询端启用推理(因为查询往往需要更深层的理解),而候选项则通过预填直接生成嵌入。此处(, , )分别代表查询、自生成推理过程和目标,表示在我们框架下训练的RGE模型。
特殊标记设置。在以往的MLLM嵌入方法中,语义表示常取自最后一层隐藏状态中的最终标记。而在我们的方法中,由于需要同时优化语言建模(用于推理生成)与对比对齐(用于嵌入质量),我们不希望词表中的任何已有标记同时承担这两项功能。因此,我们引入了专用特殊标记,明确以其最终层隐藏状态作为池化嵌入。此外,由于之后不再有文本出现,该标记也有效地替代了此流程中的功能,使原有的仅用于语言建模而非语义池化。
图3 训练框架概览。我们的训练框架同时优化语言建模损失和对比损失。
联合训练
**下一个标记预测损失.**我们遵循自回归模型的标准做法,训练MLLM预测推理过程中下一个标记。这种方法有助于模型形成连贯的推理路径。其语言建模损失函数为:
其中,表示多模态输入,为位置上的推理标记,为需预测的总标记数,表示模型在词表上的预测分布。
在训练过程中,我们上一章节介绍的两种推理行为:
- 对查询部分,要求模型生成推理过程;
- 对候选项,则直接生成嵌入,无需推理。
为保证对称性和训练稳定性,我们在两侧均应用语言建模目标,但目标标记不同:查询侧预测推理过程的各个标记,候选侧则仅预测一个终止的特殊标记。如图3所示,受监督的语言建模标记被明确标注:查询侧为多个推理标记,目标侧为一个终止的标记。
双侧加权语言建模损失可表示为:
在实际操作中,表示查询端推理标记的数量,而,仅在目标端终止的位置取值为1。
基于自生成推理过程的对比对齐我们遵循对比学习的常规方法采用InfoNCE损失。在分别提取查询端和目标端的嵌入后,对比损失可正式表示为:
信息泄漏问题在有监督的语言模型训练中,自回归损失是在编码完整输入序列后计算的,包括预填充的上下文和受监督的推理标记。这意味着,在查询端,最终标记的隐藏状态能够完全访问标准推理过程。如果我们直接使用这一隐藏状态进行对比对齐,任务将变得过于简单:对齐过程不再衡量表示质量,而是利用了标准推理过程的信息泄漏。
表1 信息泄露问题分析。
我们在表1中通过对MMEB小规模文本-图像配对训练子集的受控检索实验,对此进行了实证验证。具体而言,我们从头训练了三个变体,使用相同的查询-目标(, )对和超参数,唯一的区别在于用作对比监督锚点的表示不同:
(1),基线模型,不包含任何推理过程;
(2)(, ),直接在自回归LM前向过程中取隐藏状态(因此暴露了标准推理标记);
(3)(),即我们提出的在提取之前动态生成自推理过程。
表1显示了一个显著现象:虽然(2)技术上拥有比(1)更多的信息,但其性能远低于基线。相反,(3)中推理过程由模型内部生成而非直接提供,在两个数据集上均取得了最佳性能。这支持了我们的核心观点:用于LM损失的隐藏状态与标准推理标记高度耦合,为对比训练提供了一条绕开真实查询语义的捷径。通过要求模型自生成推理过程,我们有效规避了这一捷径,使对比损失被迫对齐于正确的语义信号。
我们将这一现象归因于上述的信息泄漏问题。为进一步验证,我们设计了两个扰动三元组()的诊断实验:
(1)(),其中为的错误目标;
(2)(),其中与标准推理及目标不匹配。
图4 信息泄露的检索实验。
从图4可以看出,对于三元组(),自回归损失正常下降,因为与一致。而对比损失如预期并未下降,因为()与并不对齐。相比之下,()中,自回归损失几乎没有下降(因为与不对应),但对比损失却异常地下降了,尽管()并非有效配对。这进一步证明,如果直接复用自回归LM前向过程中的隐藏状态,模型在对比学习中可以利用捷径,仅通过对齐和,而不依赖原始查询。
为防止此类信息泄漏,我们在对比学习时,从模型输入中移除真实推理过程,改为让模型在每一步训练时动态生成推理过程。这样,对比对齐仅依赖于模型自生成的推理过程,从而将推理质量与判别式表示学习直接结合, 最终总体损失函数为:
实验
实现细节
我们采用Qwen2.5-VL-3B作为基础模型,并对整个模型进行全参数微调。损失平衡系数设置为= 10 : 1,以获得更好的性能。对比损失的温度参数设为0.03。我们在MMEB数据集上进行训练,推理过程通过提示InternVL3.5-38B生成。所有实验按照VLM2Vec的流程,仅训练一个epoch。总批量大小为512,学习率为,最大新生成标记长度设置为128。
在下游任务训练前,我们先在包含16万条数据的子集上进行cold start阶段,仅使用语言建模损失,从而使MLLM熟悉所需的输出格式。该cold start检查点作为本文所有实验的初始化模型。消融实验也均在这16万数据子集内进行,以提高效率。
表2 在MMEB基准上的性能比较
实验结果
我们的模型在参数规模相当的同类模型中表现最为突出,值得注意的是,我们的2B参数模型已超越多个现有的7B模型。为了保证公平对比,我们还基于相同的基础多模态大模型(Qwen2.5VL),训练了一个不包含推理过程、仅对最终隐藏状态直接进行对比监督的基线模型。与这一同等规模下最强的无推理基线相比,我们的方法在MMEB数据集上取得了显著提升,充分证明了RGE学习的有效性。
表4 消融不同的对比监督对。
消融自生成对比损失
直接采用自回归语言模型前向过程中的隐藏状态进行对比监督,会导致信息泄漏:模型可能通过将标准推理与目标对齐而忽略原始查询,从而走捷径。表4在完整的MMEB评测集上验证了这一现象。相比之下,采用动态生成的自推理过程进行对比学习,有效消除了这一捷径,恢复了对查询内容的依赖。
如何学习AI大模型?
如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
100套AI大模型商业化落地方案
大模型全套视频教程
200本大模型PDF书籍
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
LLM面试题合集
大模型产品经理资源合集
大模型项目实战合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓