news 2026/4/15 19:38:43

Towards More Unified In-context Visual Understanding

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Towards More Unified In-context Visual Understanding

作者提出了一个框架可以将自回归模型的优势与上下文学习的视觉语言任务的具体要求无缝集成。作者尝试了多模态输入输出的上下文学习,旨在通过特定模态的量化和共享嵌入来统一视觉语言数据,然后对预先组织好的交错上下文样本序列执行自回归预测以实现上下文推理。

Towards More Unified In-context Visual Understanding

会议:CVPR 2024

论文链接:https://arxiv.org/abs/2312.02520

介绍与方法动机

随着大型语言模型的快速发展,上下文学习(ICL)逐渐成为自然语言处理(NLP)领域的一种新范式。如GPT-3中所述,给定语言序列作为通用接口,该模型可以通过使用有限数量的提示和示例,快速适应以不同语言为中心的任务。这是一种基于提示和示例的策略,通过修改演示和模板,大大简化了将任务知识集成到LLM中的过程。最近,ICL已被应用在视觉理解任务中,例如语义分割和图像字幕,在推理时表现出良好的泛化性能。 一些早期工作为将ICL应用于视觉语言(VL)任务进行了一些探索,通过将图像模态用预训练的语言模型建模以实现上下文学习。例如,Flamingo[2]将图像输入作为一个特殊的标记,以文本的形式进行交错输入提示,并将视觉信息注入到具有门控交叉注意力密集块的预训练LLM中。它展示了处理各种视觉语言任务的非凡能力。然而,基于LLM解码器设计使其只能输出文本。

后续视觉上下文学习方案中,大多采用图像修复的方式,同样将示例与输入图片表示为n宫格图像,通过修复指定的输出区域以实现上下文学习[3-5]。MAE-VQGAN[3]利用视觉相关文献中的插图和信息图,基于预训练的MAE进行图像修复,显示了基本上下文推理能力。此外,Painter[4]的研究在连续像素上使用MAE进行掩码图像建模,通过将各个视觉任务的输出统一为RGB格式的图像进行上下文学习。随后,SegGPT[5]采用类似的框架解决多样化的分割任务。但上述模型只能输出图片。

如图1所示,先前的工作通常局限于特定模态的输出。我们尝试了多模态输入输出的上下文学习,旨在通过特定模态的量化和共享嵌入来统一视觉语言数据,然后对预先组织好的交错上下文样本序列执行自回归预测以实现上下文推理。

方法

我们提出了一个框架可以将自回归模型的优势与上下文学习的视觉语言任务的具体要求无缝集成。主要分为三个流程:(1)通过组织良好的视觉语言提示,以描述基本的视觉理解任务,如分割和字幕。(2)在将输入转换为预定义的提示格式后,使用特定于模态的标记器将输入对的上下文提示量化为离散标记,然后使用通用嵌入网络将它们嵌入到统一表示中。(3)引入具有稀疏MoE的解码器transformer网络来对交织的统一表示执行生成建模。

视觉语言提示

在视觉语言提示设计,我们参考了之前的工作,对Vision-only tasks在每个图像表示前面插入一个特殊的标签"[BOI]",指代当前图像的位置;对Vision-language tasks,对于每个图像,同样在图像表示前使用特殊的“[BOI]"标签。对于文本部分,我们用它们对应的实例类别和边界框 (bbox) 来进行区域描述,例如“Category:. Bboxes: [x1,y1,x2,y2]. Caption:."其中 表示类别集合中的类索引,表示定位对象的点坐标。在每个文本的开头添加了一个特殊的标签 "[BOT]"。在上下文示例序列的每个示例结尾中,我们加入了"[EOC]"标签来表示当前上下文样本的结束。

多模态上下文统一嵌入框架

有了上下文任务的视觉语言提示后,需要解决的是如何对多模态数据进行建模,从DALLE的结构收到启发,我们多模态上下文统一嵌入框架实现对不同输入模态的表示。具体而言分为两个阶段:Stage1:多模态量化,为了支持多模态输入,采用模态特有的量化器对不同模态数据量化为离散token;Stage2:统一编码,对多模态的输入离散token通过特定的prompt组织后通过统一的embedding网络编码到统一空间。

经过这样的处理后,不同模态的数据在表示空间得到统一,方便下个阶段的学习。

稀疏MoE解码器框架

最后,为了对输入序列进行建模以实现上下文学习,我们决定采用transformer decoder-only的结构,基于next-token prediction的预测方式天然和上下文较为匹配。为了解决多模态和多任务可能带来的相互干扰,引入稀疏MoE结构替换decoder transformer块中的FFN,来对输入序列执行生成式建模。损失采用标准的交叉熵损失和MoE门控网络的辅助损失。所提出的多模态上下文统一嵌入框架和稀疏MoE解码器框架分别如图2和图3所示:

实验

实现细节

为了评估模型对上下文能力,我们设计了两个任务来验证模型的有效性。因此,我们利用语义线索重新定义传统视觉任务,强调视觉语言理解任务,例如语义分割和图像字幕,分别称为类感知上下文分割和描述(CA-ICL Segmentation、Captioning)。通过利用MS-COCO和Visual-Genome数据集分别构建类别实例池,我们为这两个任务构建了相应的训练与评估数据。

实现细节上,图片量化器我们采用了码本大小为1024的VQ-GAN,文本量化器采用码本大小为50257的GPT-2 BPE 量化器。我们使用 GPT-small架构来实现我们的模型,同时替换部分解码器层中的 FFN 为基于Uni-Perceiver v2引入的属性路由MoE,具体超参数参考补充材料。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 18:46:11

为什么90%的企业用不好库存预警?Agent建模中的5个致命盲区曝光

第一章:供应链 Agent 的库存预警在现代供应链系统中,自动化库存管理是保障运营效率的核心环节。通过引入智能 Agent 技术,企业能够实现对库存水平的实时监控与动态预警,从而有效避免缺货或积压问题。Agent 的核心职责 供应链 Agen…

作者头像 李华
网站建设 2026/4/12 6:38:50

Web扩展跨平台开发终极指南:架构决策与设计模式深度解析

Web扩展跨平台开发终极指南:架构决策与设计模式深度解析 【免费下载链接】PT-Plugin-Plus PT 助手 Plus,为 Microsoft Edge、Google Chrome、Firefox 浏览器插件(Web Extensions),主要用于辅助下载 PT 站的种子。 项…

作者头像 李华
网站建设 2026/4/13 22:50:02

【专家级实战分享】:打造下一代农业灌溉Agent的7个关键技术点

第一章:农业种植Agent灌溉策略的核心价值在现代农业智能化转型中,基于Agent的灌溉策略正成为提升水资源利用效率与作物产量的关键技术。通过部署具备感知、决策与执行能力的智能Agent,系统能够实时采集土壤湿度、气象数据及作物生长状态&…

作者头像 李华
网站建设 2026/4/11 6:25:57

工业互联网Agent设备接入难题破解(百万级设备连接实战经验)

第一章:工业互联网Agent设备接入难题破解(百万级设备连接实战经验)在构建大规模工业互联网平台时,实现百万级Agent设备的稳定接入是核心挑战之一。设备异构性强、网络环境复杂、心跳频率高,极易引发连接抖动、消息堆积…

作者头像 李华
网站建设 2026/4/14 4:39:37

如何在手机息屏状态下完美控制Android设备:escrcpy黑科技揭秘

如何在手机息屏状态下完美控制Android设备:escrcpy黑科技揭秘 【免费下载链接】escrcpy 优雅而强大的跨平台 Android 设备控制工具,基于 Scrcpy 的 Electron 应用,支持无线连接和多设备管理,让您的电脑成为 Android 的完美伴侣。 项目地址: https://gi…

作者头像 李华