news 2026/5/7 0:52:40

【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【2025 ACL】Listen, Watch, and Learn to Feel: Retrieval-Augmented Emotion Reasoning for Compound Emo

文章目录

  • 核心问题
  • 核心思想与动机
  • 提出的方法
    • A. 检索增强情感推理框架 (RAER)
    • B. 刺激武装强盗评估框架 (SAB)
    • C. 复合情感问答数据集 (Compound Emotion QA Dataset)
  • 主要贡献

核心问题

通用的大语言模型(LLMs)和多模态大语言模型(MLLMs)在情感理解方面存在显著挑战 :

  • 复合情感和模糊性 (Compound and Ambiguous Emotions):传统的情感识别模型(如基于“Big Six”离散标签或 VAD 维度标签的模型)难以充分捕捉人类情感表达中复杂细微的差别,尤其是在涉及复合情感上下文丰富的情景中 。
  • 标注的主观性和不一致性 (Subjectivity and Inconsistency):基于心理学理论的人类标注,由于情感感知的主观性,往往导致标注结果不一致,这限制了现有模型的鲁棒性 。
  • 缺乏细粒度的评估方法 (Lack of Fine-grained Evaluation):现有的评估框架难以系统性地评估模型处理复杂情感推理的能力,特别是那些难以量化的任务 。

核心思想与动机

核心思想是利用检索增强生成 (RAG)的能力,为 MLLM 提供外部、上下文相关的情感知识,从而提升其在复杂情感情景中的推理能力

  • 动机:为了解决现有模型在处理复合情感时的局限性,论文提出了一种更像人类、更细致入微的方法 。通过 RAG 引入外部知识,可以指导 MLLM 进行更深入的情感推理,而不是仅仅依赖模型自身的参数化知识 。
  • 关键机制:结合 RAG 和思维链 (Chain-of-Thought, CoT) 推理,构建RAER (Retrieval-Augmented Emotion Reasoning)框架。

提出的方法

论文提出了两个主要框架和一个新数据集:

A. 检索增强情感推理框架 (RAER)

RAER 是一个即插即用 (plug-and-play)的模块,旨在增强 MLLMs 处理复合情感的能力 。

  • 情感知识库构建 (Emotional Knowledge Base):知识库最初由多模态情感数据集构建,将面部表情、情感音频情感描述等多样化输入编码为高维向量嵌入 。这个知识库会动态更新,通过添加 RAER 在推理过程中生成的高置信度样本进行演化和扩展。
  • 情感推理与思维链 (Emotion Reasoning CoT):RAER 利用 CoT 机制指导 MLLM 进行结构化推理 。当模型在生成初始回复时遇到情感歧义或不确定性时,它会触发检索机制 。
  • 检索增强 (Retrieval Augmentation):当情感线索不一致时(Cues Inconsistent),系统通过K-近邻 (K-Nearest Neighbors)搜索从向量数据库中检索最相似的例子及其关联的情感描述 。这些检索到的上下文用于细化模型对情感线索的理解和消除歧义,从而生成更准确、更符合上下文的推论 。

B. 刺激武装强盗评估框架 (SAB)

  • 目的:这是一个新颖的评估方法,专为评估 MLLMs 的复合情感能力而设计,特别是在开放式语言上下文和难以量化的任务中 。
  • 机制:它受到经典多臂强盗 (multi-armed bandit) 问题的启发 。SAB 结合 AI 生成的多模态刺激 (Stimuli)和情感任务,通过两两比较 (Pairwise Comparisons),收集人类或 AI 评估者的偏好判断
  • 评分:使用Elo 评分机制动态调整模型的排名分数,以评估模型在动态和复合情感上下文中的表现 。

C. 复合情感问答数据集 (Compound Emotion QA Dataset)

用于强化 MLLMs 的情感理解能力

  • 生成方式:它结合了 RAER 生成的回复和 SAB 收集的人类偏好信息。
  • 内容结构:数据集中的每个样本都包含一个首选回复 (preferred response) 和一个非首选回复 (non-preferred counterpart),形成一个成对偏好实例 (pairwise preference instance) 。
  • 构建流程
    1. 刺激生成 (Stimulus Generation):使用 GPT-4 或 GPT-4o 生成情感中性关键词 。然后,使用像 Sora(用于视觉)和 AudioGen(用于音频)等生成模型,基于这些关键词创建多样化的多模态刺激(如视频、音频)。
    2. 任务公式化 (Task Formulation):将这些多模态刺激与 MER(多模态情感识别)或 MERG(多模态共情回复生成)任务随机匹配,形成任务提示(Task Prompt)。
    3. 模型推理和偏好判断 (Inference and Preference Judgment):目标 MLLM(如 VideoLLaMA2)对生成的刺激进行多模态推理并生成相应回复 。这些回复随后通过 SAB 框架进行评估,评估基于人类或 GPT-4o 的偏好判断 。

主要贡献

  1. 提出 RAER 框架:首个结合检索增强生成情感推理链的方法,以增强 MLLMs 处理复合情感任务的能力 。
  2. 引入 SAB 评估框架:提出了Stimulus-Armed Bandit (SAB)框架,用于系统性地评估 MLLMs 在复合情感场景中的表现,并能有效收集人类偏好信号 。
  3. 构建 Compound Emotion QA 数据集:创建了一个包含复合情感任务的多模态问答数据集,旨在提升 MLLMs 的复合情感能力。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/26 14:24:56

【单片机毕业设计】【dz-960】基于云服务的家庭远程监测系统设计

一、功能简介项目名:基于云服务的家庭远程监测系统设计 项目编号:dz-960 单片机类型:STM32F103C8T6 具体功能: 1、监测到人且密码正确进行开锁; 1、通过光照监测模块监测当前环境的光照,监测到光照小于最小…

作者头像 李华
网站建设 2026/5/1 21:33:15

ARM 汇编指令:LDR

ARM 汇编指令:LDR LDR 在 ARM 汇编中是 Load Register 的缩写,即 “加载数据到寄存器”。 你可以把它理解为 C 语言等高级语言中的 “读内存” 或 “指针解引用” 操作。 核心功能 从一个内存地址中读取数据(一个或多个字节)&…

作者头像 李华
网站建设 2026/5/1 6:25:39

探索FDTD超材料吸收器的吸收光谱奥秘

FDTD超材料吸收器吸收光谱在当今科技飞速发展的时代,超材料以其独特的性质吸引了众多科研人员的目光。其中,FDTD(时域有限差分法)超材料吸收器的吸收光谱更是研究的热门领域。今天,咱们就一起来深入探究一番。 什么是F…

作者头像 李华
网站建设 2026/4/30 7:31:34

无锡黑锋 HF1841 1MHz 超小型、高效率、同步升压DC-DC变换器技术解析

一、芯片核心定位HF1841 是一款采用同步整流技术的微型、高效率、固定频率升压(Boost)DC-DC变换器 其核心价值在于 高达95%的转换效率、1MHz的高开关频率 以及 仅60μA的超低静态电流 专为单节/双节碱性/镍氢电池或单节锂电供电的便携设备设计&#xff0…

作者头像 李华