news 2026/4/17 14:17:42

CMPTA:预训练大模型在多模态情感分析任务中的应用研究

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
CMPTA:预训练大模型在多模态情感分析任务中的应用研究

导读:

大语言模型(LLMs)在自然语言处理领域取得了显著进展,但将其有效迁移至多模态情感分析(MSA)任务仍面临巨大挑战。主要难点在于如何弥合异构模态(如视觉、音频)特征与预训练文本大模型语义空间之间的鸿沟。现有方法多依赖复杂的深度融合网络或昂贵的全量微调,难以充分利用大模型的推理与泛化能力。为此,本文提出了一种轻量级的跨模态伪Token适配器(Cross-Modal Pseudo-Token Adapter, CMPTA)。该方法并不破坏大模型的原有参数,而是通过高效的注意力机制,将非文本模态特征转化为LLM可理解的“伪Token”(Pseudo-Tokens),并以软提示(Soft Prompts)的形式注入文本输入序列,从而实现多模态信息与文本语义的深度对齐。此外,本文还系统探究了伪Token数量对模型语义对齐效果的影响规律。实验结果表明,CMPTA能够有效激发大模型的多模态情感理解能力,其性能优于当前的先进基线方法,验证了该框架的有效性与泛化能力。

作者信息:

李志豪, 智 宇:温州大学计算机与人工智能学院,元宇宙与人工智能研究中心,浙江 温州;陈 昂:温州大学计算机与人工智能学院,元宇宙与人工智能研究中心,浙江 温州;温州大学元宇宙与人工智能研究院,浙江 温州

论文详情

本文提出的CMPTA模型,整体架构如图1所示,编码器由预训练大语言模型的文本嵌入层(Text Embedder)、基于LSTM的时序特征对齐层以及跨模态伪Token适配器(CMPT)组成,解码器为预训练好的大语言模型。

本研究在两个经典的多模态情感分析数据集上验证模型性能,分别为SIMS-V2与MELD。如表1所示,SIMS-V2是中文多模态情绪数据集,样本来自短视频片段,包含文本、视觉与音频三模态信息,并采用连续情感强度标注,能够细粒度刻画情绪变化。MELD则源自电视剧《Friends》的多角色对话场景,同样提供文本、视觉和语音模态,但使用7类离散情感标签,并包含跨轮次对话上下文。两个数据集在语言、情感标注体系、场景、数据来源等方面具有互补性,为全面评估模型的跨场景泛化能力提供了可靠基础。

本研究根据任务特性分别采用平均绝对误差(MAE)与加权F1分数(WF1)作为主要评价指标。对于采用连续情感强度标注的数据集,使用MAE衡量预测值与真实值之间的平均绝对偏差,刻画模型在回归情感强度方面的误差表现。其定义为:

对于使用离散情感类别标注的数据集,采用WF1分数反映模型在类不平衡条件下的整体分类性能。WF1分数对各类别值按照样本数量加权:

MAE关注预测偏差规模,而WF1能有效处理类别分布不均带来的偏差,两者结合能够全面评估模型在连续与离散情感任务上的表现。

本文的CMPTA模型接受文本、视觉和音频特征作为输入,对于整个数据集,首先将数据集分为训练集、验证集和测试集,训练集用于模型的训练阶段,验证集用于训练过程中检验模型的阶段性效果,实验结果是模型在测试集上的表现。所有的模型训练和测试皆是在一个装有windows系统上的设备完成的,该设备配备GEFORCE RTX 4090显卡。模型训练的超参数见表2所示:

我们在SIMS-V2和MELD这两个数据集上分别进行了实验,所有的实验均保证了训练集、验证集和测试集拥有相同方式的划分,对于SIMS-V2这个数据集,我们做的是情感回归任务,评价指标为平均绝对误差,结果如表3所示,我们的方法MAE值为0.308,显著优于对比方法,说明在情感回归任务中,对多模态信息的互补性建模更加充分,能更好地捕捉情感强度的细微变化。对于MELD数据集,我们做的是情感分类任务,评价指标为加权F1分数,结果如表4所示,我们的方法WF1分数为59.49,超过现有方法,表明模型在复杂对话场景下能够更有效融合多模态信息,并缓解说话人变化和情境噪声带来的影响。

总体而言,在回归型(SIMS-V2)和对话型分类(MELD)两类特性差异明显的数据集上均取得稳定提升,说明我们的方法具有较好的跨数据集泛化能力和融合有效性。

我们在SIMS-V2和MELD数据集上,分别对时序特征对齐层、跨模态伪Token适配器和伪token生成数量进行了消融研究,结果如表5和表6所示。

为了直观展示CMPTA的有效性,我们选取了MELD数据集中的一个反讽样本进行注意力权重可视化。文本内容为“这也太好了吧”,但在视觉上人物眉头紧锁,音频语调阴阳怪气的。传统文本模型将其误判为“积极”,如图5,而CMPTA通过引入6个视觉伪Token和音频伪Token,关注到了额外的视觉和音频模态信息,成功修正了LLM的判断,将其正确识别为“厌恶”情绪。这证明了伪Token数量为6个时成功捕获了非文本模态中的关键互补信息。

实验表明,当Token数量少于6时,伪Token承载的信息均值被过度压缩,导致非文本模态的关键细节丢失,而当Token数量过多时,引入了过多的冗余信息甚至噪声,干扰了LLM对文本主干语义的理解。因此,6个Token在保留模态互补信息与维持语义空间纯净度之间达到了最佳平衡。

结论

本文提出了CMPTA多模态情感建模框架,旨在解决多模态情感分析中跨模态交互不足和情感表达不充分的问题。CMPTA通过引入时序特征对齐层和跨模态伪Token适配器,在统一语义空间内实现了更充分、稳定的多模态信息交互。在SIMS-V2情感回归任务和MELD对话情感分类任务上的实验结果表明,CMPTA在MAE和WF1指标上均优于多种主流方法,验证了其在不同任务形式和数据集特性下的有效性与泛化能力。消融实验进一步证明了时序特征对齐层和跨模态伪Token适配器在性能提升中的关键作用,同时分析了伪token数量对模型性能的影响,说明合理的结构设计能够在信息表达能力与噪声抑制之间取得平衡。总体而言,CMPTA为多模态情感分析提供了一种有效且具有良好扩展性的解决思路,可为后续多模态表示学习与跨模态建模研究提供参考。

基金项目:

本课题受到“温州大学元宇宙与人工智能研究院”的“重大课题及项目产业化专项资金”(编号:2023103)的资助。

原文链接:

https://doi.org/10.12677/csa.2026.161023

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 14:17:06

FSMN VAD微信支持渠道揭秘:科哥提供哪些技术帮助?

FSMN VAD微信支持渠道揭秘:科哥提供哪些技术帮助? 语音活动检测(VAD)是语音处理流水线中至关重要的第一步——它像一位专注的“守门人”,精准判断音频中哪里是真实语音、哪里是静音或噪声。而FSMN VAD,正是…

作者头像 李华
网站建设 2026/4/11 7:28:29

手机录音能用吗?测试常见M4A/AAC格式识别准确度

手机录音能用吗?测试常见M4A/AAC格式识别准确度 你是不是也遇到过这样的情况:会议结束赶紧打开手机录音回放,结果转文字时满屏错字?或者把微信语音发给同事,对方说“这识别的啥啊,完全看不懂”&#xff1f…

作者头像 李华
网站建设 2026/4/16 16:51:23

通义千问3-14B加载缓慢?vLLM集成部署提速实战案例

通义千问3-14B加载缓慢?vLLM集成部署提速实战案例 1. 问题现场:为什么Qwen3-14B启动总要等半分钟? 你兴冲冲下载完Qwen3-14B,执行ollama run qwen3:14b,终端光标安静地闪烁——28秒过去,模型还没加载完。…

作者头像 李华
网站建设 2026/4/15 18:40:26

Open-AutoGLM与Auto.js对比:AI模型VS脚本自动化

Open-AutoGLM与Auto.js对比:AI模型VS脚本自动化 1. 两种自动化范式的本质差异 很多人第一次听说“让AI操作手机”时,第一反应是:这不就是Auto.js干的事吗?确实,Auto.js作为安卓端老牌脚本自动化工具,早已…

作者头像 李华
网站建设 2026/4/13 22:49:14

Live Avatar生产环境部署:批量处理脚本编写实战案例

Live Avatar生产环境部署:批量处理脚本编写实战案例 1. 项目背景与核心挑战 Live Avatar是由阿里联合高校开源的数字人生成模型,它能将静态人像、语音和文本提示融合,生成高质量的说话视频。这个模型基于Wan2.2-S2V-14B架构,具备强…

作者头像 李华