如何让多模态大模型更聪明？推理引导嵌入(RGE)详解与实战！-洪萨配资

简介

文章提出推理引导嵌入(RGE)新方法，将多模态大模型的生成式推理能力融入嵌入提取过程。方法分为两步：先生成结构化推理分析，再提取特征表示。通过联合训练语言建模损失和对比损失，避免信息泄漏问题。实验表明，RGE在MMEB数据集上表现优异，超越了参数规模更大的模型，证明了自生成推理过程对提升嵌入质量的有效性。

简介

近期研究发现，多模态大语言模型在作为嵌入提取器方面表现出色。然而，目前的主流方法大多将嵌入提取过程视为一个简单的、直接的编码步骤。这种做法忽略了一个关键事实：多模态大语言模型本身具备强大的生成式推理能力，而这种能力完全可以被挖掘出来，用以提升最终生成的表示质量。

针对以上问题，我们探索了如何将“推理”过程显式地融入到嵌入生成中。为此，我们提出了一种名为**推理引导嵌入（Reasoning Guided Embeddings, RGE）**的新方法。

RGE方法的核心在于，它保留了多模态大语言模型的生成式推理过程，并将其与对比学习相结合。具体来说，我们的方法分为两步：

生成结构化推理：首先，模型会根据给定的指令，进行一步结构化的推理分析（Rationale Generation），生成对输入内容的理解与解释。
提取表示：然后，在模型完成上述推理过程之后，我们再从其内部状态中提取最终的特征表示。

图1. 我们的方法与非推理基线的对比。

方法

标准推理过程生成

为了让多模态大模型能够生成有效提升嵌入质量的推理过程，我们首先为其提供了经过监督的正确推理示例。为此，我们构建了一套标准推理过程（oracle rationales），这些推理过程基于查询（query）及其真实目标（ground-truth target）生成。

具体地说，我们在现有的MMEB训练样本基础上，为每一组查询-目标对(, )生成一个标准推理过程 ()，用于解释为何该目标能正确匹配查询。这些标准推理过程作为联合训练中的监督语言建模目标。值得注意的是，这一过程未引入任何外部数据，只是在现有的查询-目标对基础上，补充了对应的标准推理过程。

图2 数据集整理流程。我们将查询及其真实目标t输入到多模态大模型推理生成器中，并结合针对具体任务和模态设计的提示词，生成格式规范的标准推理过程 ()。

如图2所示，对于MMEB中的各类下游任务，包括分类、视觉问答、检索和视觉定位等，我们为不同模态组合手动设计了专属提示词。每个提示词开头明确指定模型的专家身份，并简要说明任务目的和推理目标。此外，我们还对模型输出提出了清晰的格式要求。模型需通过自然语言逻辑分析，基于对查询图像和文本的细致理解，生成标准推理过程。这一分析过程涵盖了多层次描述，包括整体描述、目标级细节以及基于世界知识的任务相关思考。最后，每个提示词都会附有一个示例，帮助模型理解预期输出，即给出连贯的推理过程，解释如何完成指定任务。

模型推理设置

不同的推理模式。在推理阶段，我们希望模型支持两种模式：

当无需推理时，直接提取嵌入向量；
当推理有助于提升效果时，生成推理过程后再提取嵌入。

具体而言，若在输入末尾预先插入特殊标记，模型会立即将多模态输入映射到该标记处，我们则以其最终层的隐藏状态作为嵌入向量。如果未预填，模型则进入生成式推理模式：首先生成推理过程，遇到自生成的后终止，然后通过再向前推理一步（复用KV缓存），获取该标记的隐藏状态，作为最终的嵌入。这使得同一模型能够灵活实现直接池化或先推理再池化，无需切换模型结构。

在实际操作中，我们通常在查询端启用推理（因为查询往往需要更深层的理解），而候选项则通过预填直接生成嵌入。此处(, , )分别代表查询、自生成推理过程和目标，表示在我们框架下训练的RGE模型。

特殊标记设置。在以往的MLLM嵌入方法中，语义表示常取自最后一层隐藏状态中的最终标记。而在我们的方法中，由于需要同时优化语言建模（用于推理生成）与对比对齐（用于嵌入质量），我们不希望词表中的任何已有标记同时承担这两项功能。因此，我们引入了专用特殊标记，明确以其最终层隐藏状态作为池化嵌入。此外，由于之后不再有文本出现，该标记也有效地替代了此流程中的功能，使原有的仅用于语言建模而非语义池化。

图3 训练框架概览。我们的训练框架同时优化语言建模损失和对比损失。

联合训练

**下一个标记预测损失.**我们遵循自回归模型的标准做法，训练MLLM预测推理过程中下一个标记。这种方法有助于模型形成连贯的推理路径。其语言建模损失函数为：

其中，表示多模态输入，为位置上的推理标记，为需预测的总标记数，表示模型在词表上的预测分布。

在训练过程中，我们上一章节介绍的两种推理行为：

对查询部分，要求模型生成推理过程；
对候选项，则直接生成嵌入，无需推理。

为保证对称性和训练稳定性，我们在两侧均应用语言建模目标，但目标标记不同：查询侧预测推理过程的各个标记，候选侧则仅预测一个终止的特殊标记。如图3所示，受监督的语言建模标记被明确标注：查询侧为多个推理标记，目标侧为一个终止的标记。

双侧加权语言建模损失可表示为：

在实际操作中，表示查询端推理标记的数量，而，仅在目标端终止的位置取值为1。

基于自生成推理过程的对比对齐我们遵循对比学习的常规方法采用InfoNCE损失。在分别提取查询端和目标端的嵌入后，对比损失可正式表示为：

信息泄漏问题在有监督的语言模型训练中，自回归损失是在编码完整输入序列后计算的，包括预填充的上下文和受监督的推理标记。这意味着，在查询端，最终标记的隐藏状态能够完全访问标准推理过程。如果我们直接使用这一隐藏状态进行对比对齐，任务将变得过于简单：对齐过程不再衡量表示质量，而是利用了标准推理过程的信息泄漏。

表1 信息泄露问题分析。

我们在表1中通过对MMEB小规模文本-图像配对训练子集的受控检索实验，对此进行了实证验证。具体而言，我们从头训练了三个变体，使用相同的查询-目标(, )对和超参数，唯一的区别在于用作对比监督锚点的表示不同：

（1），基线模型，不包含任何推理过程；

（2）（, ），直接在自回归LM前向过程中取隐藏状态（因此暴露了标准推理标记）；

（3）（），即我们提出的在提取之前动态生成自推理过程。

表1显示了一个显著现象：虽然（2）技术上拥有比（1）更多的信息，但其性能远低于基线。相反，（3）中推理过程由模型内部生成而非直接提供，在两个数据集上均取得了最佳性能。这支持了我们的核心观点：用于LM损失的隐藏状态与标准推理标记高度耦合，为对比训练提供了一条绕开真实查询语义的捷径。通过要求模型自生成推理过程，我们有效规避了这一捷径，使对比损失被迫对齐于正确的语义信号。

我们将这一现象归因于上述的信息泄漏问题。为进一步验证，我们设计了两个扰动三元组()的诊断实验：

（1）（），其中为的错误目标；

（2）（），其中与标准推理及目标不匹配。

图4 信息泄露的检索实验。

从图4可以看出，对于三元组()，自回归损失正常下降，因为与一致。而对比损失如预期并未下降，因为()与并不对齐。相比之下，()中，自回归损失几乎没有下降（因为与不对应），但对比损失却异常地下降了，尽管()并非有效配对。这进一步证明，如果直接复用自回归LM前向过程中的隐藏状态，模型在对比学习中可以利用捷径，仅通过对齐和，而不依赖原始查询。

为防止此类信息泄漏，我们在对比学习时，从模型输入中移除真实推理过程，改为让模型在每一步训练时动态生成推理过程。这样，对比对齐仅依赖于模型自生成的推理过程，从而将推理质量与判别式表示学习直接结合, 最终总体损失函数为：

实验

实现细节

我们采用Qwen2.5-VL-3B作为基础模型，并对整个模型进行全参数微调。损失平衡系数设置为= 10 : 1，以获得更好的性能。对比损失的温度参数设为0.03。我们在MMEB数据集上进行训练，推理过程通过提示InternVL3.5-38B生成。所有实验按照VLM2Vec的流程，仅训练一个epoch。总批量大小为512，学习率为，最大新生成标记长度设置为128。

在下游任务训练前，我们先在包含16万条数据的子集上进行cold start阶段，仅使用语言建模损失，从而使MLLM熟悉所需的输出格式。该cold start检查点作为本文所有实验的初始化模型。消融实验也均在这16万数据子集内进行，以提高效率。

表2 在MMEB基准上的性能比较

实验结果

我们的模型在参数规模相当的同类模型中表现最为突出，值得注意的是，我们的2B参数模型已超越多个现有的7B模型。为了保证公平对比，我们还基于相同的基础多模态大模型（Qwen2.5VL），训练了一个不包含推理过程、仅对最终隐藏状态直接进行对比监督的基线模型。与这一同等规模下最强的无推理基线相比，我们的方法在MMEB数据集上取得了显著提升，充分证明了RGE学习的有效性。

表4 消融不同的对比监督对。

消融自生成对比损失

直接采用自回归语言模型前向过程中的隐藏状态进行对比监督，会导致信息泄漏：模型可能通过将标准推理与目标对齐而忽略原始查询，从而走捷径。表4在完整的MMEB评测集上验证了这一现象。相比之下，采用动态生成的自推理过程进行对比学习，有效消除了这一捷径，恢复了对查询内容的依赖。

如何学习AI大模型？

如果你对AI大模型入门感兴趣，那么你需要的话可以点击这里大模型重磅福利：入门进阶全套104G学习资源包免费分享！

这份完整版的大模型 AI 学习和面试资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览，小伙伴们记得点个收藏！

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

如何让多模态大模型更聪明？推理引导嵌入(RGE)详解与实战！

简介

方法

标准推理过程生成

模型推理设置

联合训练

实验

实现细节

实验结果

消融自生成对比损失

如何学习AI大模型？

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

智谱 GLM-4.7 抢先实测体验：Claude Code 的升级替代品！

3步搞定复杂手机自动化：基于Open-AutoGLM的phoneagent快速上手教程

35、Ruby编程：编译时、运行时与内置类的灵活运用

46、Ruby 核心类与标准库使用指南

47、Ruby 标准库实用功能解析

49、Ruby实用库功能及使用示例