文章目录
- 核心问题
- 核心思想与动机
- 提出的方法
- A. 检索增强情感推理框架 (RAER)
- B. 刺激武装强盗评估框架 (SAB)
- C. 复合情感问答数据集 (Compound Emotion QA Dataset)
- 主要贡献
核心问题
通用的大语言模型(LLMs)和多模态大语言模型(MLLMs)在情感理解方面存在显著挑战 :
- 复合情感和模糊性 (Compound and Ambiguous Emotions):传统的情感识别模型(如基于“Big Six”离散标签或 VAD 维度标签的模型)难以充分捕捉人类情感表达中复杂和细微的差别,尤其是在涉及复合情感和上下文丰富的情景中 。
- 标注的主观性和不一致性 (Subjectivity and Inconsistency):基于心理学理论的人类标注,由于情感感知的主观性,往往导致标注结果不一致,这限制了现有模型的鲁棒性 。
- 缺乏细粒度的评估方法 (Lack of Fine-grained Evaluation):现有的评估框架难以系统性地评估模型处理复杂情感推理的能力,特别是那些难以量化的任务 。
核心思想与动机
核心思想是利用检索增强生成 (RAG)的能力,为 MLLM 提供外部、上下文相关的情感知识,从而提升其在复杂情感情景中的推理能力。
- 动机:为了解决现有模型在处理复合情感时的局限性,论文提出了一种更像人类、更细致入微的方法 。通过 RAG 引入外部知识,可以指导 MLLM 进行更深入的情感推理,而不是仅仅依赖模型自身的参数化知识 。
- 关键机制:结合 RAG 和思维链 (Chain-of-Thought, CoT) 推理,构建RAER (Retrieval-Augmented Emotion Reasoning)框架。
提出的方法
论文提出了两个主要框架和一个新数据集:
A. 检索增强情感推理框架 (RAER)
RAER 是一个即插即用 (plug-and-play)的模块,旨在增强 MLLMs 处理复合情感的能力 。
- 情感知识库构建 (Emotional Knowledge Base):知识库最初由多模态情感数据集构建,将面部表情、情感音频和情感描述等多样化输入编码为高维向量嵌入 。这个知识库会动态更新,通过添加 RAER 在推理过程中生成的高置信度样本进行演化和扩展。
- 情感推理与思维链 (Emotion Reasoning CoT):RAER 利用 CoT 机制指导 MLLM 进行结构化推理 。当模型在生成初始回复时遇到情感歧义或不确定性时,它会触发检索机制 。
- 检索增强 (Retrieval Augmentation):当情感线索不一致时(Cues Inconsistent),系统通过K-近邻 (K-Nearest Neighbors)搜索从向量数据库中检索最相似的例子及其关联的情感描述 。这些检索到的上下文用于细化模型对情感线索的理解和消除歧义,从而生成更准确、更符合上下文的推论 。
B. 刺激武装强盗评估框架 (SAB)
- 目的:这是一个新颖的评估方法,专为评估 MLLMs 的复合情感能力而设计,特别是在开放式语言上下文和难以量化的任务中 。
- 机制:它受到经典多臂强盗 (multi-armed bandit) 问题的启发 。SAB 结合 AI 生成的多模态刺激 (Stimuli)和情感任务,通过两两比较 (Pairwise Comparisons),收集人类或 AI 评估者的偏好判断。
- 评分:使用Elo 评分机制动态调整模型的排名分数,以评估模型在动态和复合情感上下文中的表现 。
C. 复合情感问答数据集 (Compound Emotion QA Dataset)
用于强化 MLLMs 的情感理解能力
- 生成方式:它结合了 RAER 生成的回复和 SAB 收集的人类偏好信息。
- 内容结构:数据集中的每个样本都包含一个首选回复 (preferred response) 和一个非首选回复 (non-preferred counterpart),形成一个成对偏好实例 (pairwise preference instance) 。
- 构建流程
- 刺激生成 (Stimulus Generation):使用 GPT-4 或 GPT-4o 生成情感中性关键词 。然后,使用像 Sora(用于视觉)和 AudioGen(用于音频)等生成模型,基于这些关键词创建多样化的多模态刺激(如视频、音频)。
- 任务公式化 (Task Formulation):将这些多模态刺激与 MER(多模态情感识别)或 MERG(多模态共情回复生成)任务随机匹配,形成任务提示(Task Prompt)。
- 模型推理和偏好判断 (Inference and Preference Judgment):目标 MLLM(如 VideoLLaMA2)对生成的刺激进行多模态推理并生成相应回复 。这些回复随后通过 SAB 框架进行评估,评估基于人类或 GPT-4o 的偏好判断 。
主要贡献
- 提出 RAER 框架:首个结合检索增强生成和情感推理链的方法,以增强 MLLMs 处理复合情感任务的能力 。
- 引入 SAB 评估框架:提出了Stimulus-Armed Bandit (SAB)框架,用于系统性地评估 MLLMs 在复合情感场景中的表现,并能有效收集人类偏好信号 。
- 构建 Compound Emotion QA 数据集:创建了一个包含复合情感任务的多模态问答数据集,旨在提升 MLLMs 的复合情感能力。