news 2026/4/16 2:17:27

多模态-4 CoCa

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
多模态-4 CoCa

这篇文章介绍多模态模型-CoCa

Transformer基础理论介绍可以看:深度学习基础-5 注意力机制和Transformer

多模态基础知识点可以看:多模态-1 基础理论

ViT介绍可以看:计算机视觉Transformer-1 基础结构

CLIP介绍可以看:多模态-2 CLIP

CoCa原论文:《CoCa: Contrastive Captioners are Image-Text

Foundation Models》

一 模型结构

结合对比学习和图像文本内容生成任务,基于统一的Transformer架构构建了一个可以兼顾图像理解与内容生成的多模态模型-CoCa

模型结构如下:

输入是<图像,图像文本描述>对,利用图像编码器(Image Encoder)获取图像的特征表示,论文中使用的图像编码器是ViT,然后利用注意力池化层对图像编码器的特征表示输出进行特征注意力池化。

将Transformer的Decoder分为两部分,底层部分作为统一文本特征编码表示组件(Unimodal Text Decoder),高层部分作为多模态文本生成组件(Multimodal Text Decoder)。Unimodal Text Decoder对输入文本只进行单纯的“文本”模态理解,特征解码时不会考虑图像编码器的输出信息,而Multimodal Text Decoder会利用交叉注意力(cross attention)综合图像编码器的输出进行图像文本内容生成解码。计算Unimodal Text Decoder的输出和图像编码输出之间的对比损失,再计算Multimodal Text Decoder输出的交叉熵损失,训练整个CoCa。

Unimodal Text Decoder是从全局粗粒度语义视角的一种<图像,图像文本描述>语义理解,而Multimodal Text Decoder是局部细粒度语义角度的语义理解,二者关注的语义空间不同,所以利用注意力池化层对图像编码器的输出进行注意力池化,对图像编码器进行全局注意力池化,得到一个全局图像特征编码表示,和Unimodal Text Decoder的输出进行对比学习损失计算,对图像编码器进行局部注意力池化,得到多个图像的细粒度编码表示,论文中设置的是256个,这256个特征编码类似以往卷积神经网络输出的特征图,代表着图像不同角度的语义特征,利用这256个细粒度图像编码表示作为K、V,输入到Multimodal Text Decoder的cross attention中,辅助Multimodal Text Decoder进行图像文本内容生成解码。

二 训练过程

1.从训练数据集中获取一个batch的<图像,图像文本描述>训练数据

2.利用图像编码器对当前batch的所有图像进行编码表示

3.利用Unimodal Text Decoder对当前batch的所有图像文本描述进行编码表示

4.利用注意力池化层获取图像编码表示的全局粗粒度语义编码表示,和Unimodal Text Decoder的输出计算对比学习损失

5.利用注意力池化层获取图像编码表示的局部细粒度语义编码表示,作为K、V,输入到Multimodal Text Decoder的cross attention中,辅助Multimodal Text Decoder进行图像文本描述解码,计算图像文本描述解码的交叉熵损失

6.综合对比损失和文本内容解码损失,反向传播训练CoCa

三 细节问题

1 为什么CLIP在论文中说生成式的任务对于<图像-文本>语义对齐效果不好,而后期大部分的多模态模型都是基于文本生成式的任务进行图文模态特征对齐

2 为什么CoCa的对比学习中没有使用动量编码器

对比学习存在以下问题:

CoCa借助文本生成任务的辅助,没有使用动量编码器,但是效果也较好

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 7:39:55

告别绿幕:AI视频分离技术的5个颠覆性突破

告别绿幕&#xff1a;AI视频分离技术的5个颠覆性突破 【免费下载链接】MatAnyone MatAnyone: Stable Video Matting with Consistent Memory Propagation 项目地址: https://gitcode.com/gh_mirrors/ma/MatAnyone 视频创作者是否还在为复杂场景下的抠像效果不佳而烦恼&a…

作者头像 李华
网站建设 2026/4/8 10:18:29

用verl轻松搞定长序列RL训练,实测有效!

用verl轻松搞定长序列RL训练&#xff0c;实测有效&#xff01; 1 为什么长序列RL训练一直这么难&#xff1f; 你有没有试过用PPO训练一个能处理32K上下文的大模型&#xff1f;可能刚跑两轮就遇到显存爆炸、通信卡死、吞吐掉到个位数——不是模型不行&#xff0c;是整个RL训练…

作者头像 李华
网站建设 2026/4/15 23:42:28

PRIDE-PPPAR实战排雷:解决3类核心问题的9个锦囊

PRIDE-PPPAR实战排雷&#xff1a;解决3类核心问题的9个锦囊 【免费下载链接】PRIDE-PPPAR An open‑source software for Multi-GNSS PPP ambiguity resolution 项目地址: https://gitcode.com/gh_mirrors/pr/PRIDE-PPPAR PRIDE-PPPAR&#xff08;精密单点定位模糊度固定…

作者头像 李华
网站建设 2026/4/15 10:29:00

Qwen2.5-1.5B多场景落地:跨境电商产品描述生成+多语言翻译联动

Qwen2.5-1.5B多场景落地&#xff1a;跨境电商产品描述生成多语言翻译联动 1. 为什么轻量模型正在改变本地AI工作流 你有没有遇到过这样的情况&#xff1a;想用大模型写一段英文商品描述&#xff0c;但打开网页版工具要等加载、要登录、要联网&#xff0c;还担心客户资料被上传…

作者头像 李华
网站建设 2026/4/14 23:06:43

MedGemma-X高算力适配:NVIDIA GPU(CUDA 0)显存优化与推理加速实践

MedGemma-X高算力适配&#xff1a;NVIDIA GPU&#xff08;CUDA 0&#xff09;显存优化与推理加速实践 1. MedGemma-X&#xff1a;重新定义智能影像诊断 MedGemma-X是一套深度集成Google MedGemma大模型技术的影像认知方案。通过将先进的视觉-语言理解能力引入放射科流程&…

作者头像 李华