news 2026/5/7 3:00:58

我们如何持续适应视觉-语言模型?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
我们如何持续适应视觉-语言模型?

原文:towardsdatascience.com/how-can-we-continually-adapt-vision-language-models-3e7bfa19b34e?source=collection_archive---------6-----------------------#2024-08-26

探索 CLIP 的持续学习策略

https://alicjadobrzeniecka.medium.com/?source=post_page---byline--3e7bfa19b34e--------------------------------https://towardsdatascience.com/?source=post_page---byline--3e7bfa19b34e-------------------------------- Alicja Dobrzeniecka

·发布于 Towards Data Science ·8 分钟阅读·2024 年 8 月 26 日

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/50e5d7820bf844fb40605562495b7cb7.png

图片由作者在 Midjourney 中创作

目前对大语言模型的研究和应用兴趣日益增长。然而,这些模型只能处理文本数据,这限制了它们在某些应用中的实用性。人类能够处理跨多个模态的信息,如书面和口语语言,以及对我们周围现实的视觉理解。我们期望模型能够进行类似的处理。

视觉-语言模型能够处理文本和视觉数据,这在图像分析(例如医学图像)、物体识别和更好的场景理解(例如自动驾驶汽车)、为图像生成描述、回答视觉问题、与图像进行对话等领域有广泛的应用。

不幸的是,多模态模型面临着与单模态模型相同的挑战。一旦训练完成,随着新数据样本的到来或数据分布的变化,它们可能会随着时间的推移变得过时。

在我的上一篇文章中,我介绍了**持续学习(CL)方法,适用于 AI 模型。持续学习试图找到持续训练模型的方法,这可能是未来更可持续的解决方案。在本文中,我想探讨将 CL 应用于视觉-语言模型(VLMs)**的可能性——特别是对比语言-图像预训练(CLIP)模型的应用。

但什么是 CLIP?

对比语言-图像预训练(CLIP)由 OpenAI 在 2021 年的从自然语言监督学习可转移的视觉模型论文中提出 [1]。

CLIP 模型的目标是理解文本与图像之间的关系。如果你输入一段文本,它应该返回在给定图像集合中最相关的图像。同样,如果你输入一张图像,它应该从可用的文本集合中给出最匹配的文本。

CLIP 是在一个大型的文本-图像对数据集上训练的。通过对比学习,将匹配的文本-图像对拉近到嵌入空间中,并将不匹配的对远离彼此。然后,这个学习到的共享嵌入空间在推理时用于理解文本和图像之间的关系。如果你想了解更多关于 CLIP 的信息,我推荐阅读以下文章,它详细描述了 CLIP。

为什么我们需要为视觉-语言模型进行持续学习?

大型基础模型可能会因为分布的变化或新数据样本的到来而变得过时。重新训练这些模型既昂贵又耗时。TiC-CLIP 论文的作者 [7] 显示,当前的评估实践往往未能捕捉到在考虑时间演变数据时性能的差异。

在图 1 中,你可以看到如果我们比较 2020 年前训练的 OpenAI 模型和 2022 年前训练的 OpenCLIP 模型,尽管它们在 Imagenet 上的鲁棒性(左侧图像)差异不大,但在从 2014-2016 年和 2021-2022 年的检索任务上比较时(右侧图像),它们之间存在性能差距,表明 OpenAI 模型在时间演变的数据上零-shot 鲁棒性较差 [7]。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ce1610a9e1bdb4c9f10f04d6a784a443.png

图 1. 来自论文 TiC-CLIP: Continual Training of Clip Models [7] 的图像。

此外,持续学习可能是某些使用案例的自然选择,比如在线终身学习(OLL)[8],其中数据来自于连续和非平稳的数据流,并随着时间变化而演化。

最后,正如 [4] 中指出的,CLIP 展示了显著的零-shot 能力,但对于某些领域,由于预训练时某些类别的数据不足,它可能难以实现良好的性能。

挑战

随着一些当前最先进的视觉-语言模型需要越来越多的计算时间和资源,找到一种不断适应这些模型而无需重新训练的方法似乎变得至关重要。然而,持续适应这些模型也面临一些挑战:

CLIP 的持续学习方法

目前正在进行的研究旨在改善多模态模型的持续学习方面。以下是一些现有的策略和应用场景:

  1. 专家混合(MoE)

2.CoLeCLIP

3.持续语言学习(CLL)

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/532d655751f4c0832b09042cda678768.png

图 2. 来自论文《通过持续语言学习拥抱 CLIP 中的语言包容性和多样性》中的图像[3]。

4.对称图像-文本调优策略(SIT)

持续学习模型的评估

持续学习(CL)的评估标准似乎仍在完善中。许多现有的评估 CL 模型有效性的基准在构建数据集时并没有考虑时间因素。正如[7]中提到的,性能差距有时只有在我们重新创建时间演变的测试数据设置时才会显现出来。

此外,许多现有的视觉-语言模型基准仅关注单张图像输入,而未衡量多图像理解,这在某些应用中可能至关重要。[5]的作者开发了一个多图像评估基准,可以更细致地评估当前最先进模型的局限性和能力。

持续学习并不能解决所有问题…

像 CLIP 这样的视觉-语言模型有其不足之处。在[6]中,作者探讨了 CLIP 的视觉嵌入空间与纯粹的视觉自监督学习之间的差距。他们研究了嵌入空间中的错误匹配,在这些地方,图像的编码相似,尽管它们不应如此。

根据他们的结果可以得出结论,如果一个预训练模型存在弱点,那么在模型适应过程中,这些弱点可能会被传播。学习视觉表示仍然是一个开放的挑战,视觉模型可能会成为多模态系统的瓶颈,因为仅仅扩展模型规模并不能解决像 CLIP 这样的模型内在的局限性。[6]

结论

本文探讨了将持续学习应用于视觉-语言模型的机遇与挑战,重点介绍了 CLIP 模型。希望本文能给您提供一个初步印象,表明虽然持续学习似乎是未来 AI 模型的一个良好方向,但仍有大量工作需要完成,才能使其完全可用。

如果您有任何问题或评论,请随时在评论区分享。

下次再见!

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/1fca5a8264874543865ae3508b2a7c78.png

图像由作者在 Midjourney 中生成。

参考文献

[1] Radford, A., Kim, J., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). 从自然语言监督中学习可转移的视觉模型。载于第 38 届国际机器学习会议论文集(第 8748–8763 页)。PMLR。

[2] 余家左, 朱戎智, 张璐, 胡平, 王东, 陆虎川, & 何友. (2024). 通过专家混合适配器提升视觉-语言模型的持续学习。

[3] 杨邦, 戴勇, 程旭鑫, 李耀伟, 阿西夫·拉扎, & 邹跃贤. (2024). 通过持续语言学习拥抱 CLIP 中的语言包容性和多样性。

[4] 李宇坤, 庞冠松, 苏伟, 景晨晨, 谷凌曦, 刘玲桥, 陈昊, 梁国强, & 王鹏. (2024). CoLeCLIP:通过联合任务提示和词汇学习实现开放域持续学习。

[5] 赵冰晨, 宗永硕, 张乐天, & 提莫西·霍斯佩达雷斯. (2024). 视觉和语言模型中的多图像理解基准测试:感知、知识、推理和多跳推理。

[6] 孙胜邦, 刘庄, 斋月翔, 马怡, 扬·勒昆, & 谢赛宁. (2024). 眼睛紧闭?探索多模态 LLM 的视觉缺陷。

[7] 索拉布·加尔格, 哈迪·普尔·安萨里, 梅赫达德·法拉吉塔巴尔, 萨钦·梅塔, 拉维特贾·维穆拉帕利, 恩切尔·图泽尔, 维沙尔·尚卡尔, & 法尔塔什·法赫里 (2023). TiC-CLIP:CLIP 模型的持续训练. 在NeurIPS 工作坊中。

[8] 王乐源, 向柳玉, 魏宇杰, 王云龙, & 何兆锋. (2024). CLIP 模型是一个高效的在线终身学习者。

[9] 维沙尔·腾甘, 萨尔曼·汗, 穆纳瓦尔·哈亚特, & 法赫德·汗. (2023). CLIP 模型是一个高效的持续学习者。

[10] 丁宇轩, 刘玲桥, 田春娜, 杨景元, & 丁昊轩. (2022). 别停下学习:面向 CLIP 模型的持续学习。

[11] 阿卡什·戈什, 阿尔卡迪普·阿查亚, 斯里帕尔娜·萨哈, 维尼娅·简, & 阿曼·查达. (2024). 探索视觉-语言模型的前沿:当前方法论与未来方向的调查。

[12] 倪子, 魏林, 唐爽, 庄煜, & 田琦. (2023). 通过离对角线信息进行持续的视觉-语言表示学习. 在第 40 届国际机器学习会议论文集中。JMLR.org。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 12:42:16

20、Linux文件处理与正则表达式实用指南

Linux文件处理与正则表达式实用指南 1. 文件压缩与解压缩工具 在Linux和类Unix系统中, zip 和 unzip 是常用的文件压缩与解压缩工具。不过,它们不能像 tar 那样组合使用进行网络文件复制。但 zip 可以接受标准输入,因此可用于压缩其他程序的输出。 例如,将 ls …

作者头像 李华
网站建设 2026/5/5 23:47:35

25、Linux文本格式化与打印全解析

Linux文本格式化与打印全解析 1. 文本格式化基础 在Linux系统中,文本的格式化和处理是非常重要的操作。 printf 命令可以实现基本的文本格式化。例如: [me@linuxbox ~]$ printf "Line: %05d %15.3f Result: %+15d\n" 1071 3.14156295 32589 Line: 01071 …

作者头像 李华
网站建设 2026/4/29 22:36:14

RAG信息检索基准评测指标的分析和探索

这里从多个角度分析和探索RAG信息检索常用的基准和评测指标。 1 BEIR 1.1 通用检索基准 (BEIR) BEIR是一个用于零样本文本信息检索的标准评估基准。它旨在解决传统模型在单一数据集上评估、难以衡量其真实泛化能力的问题,BEIR集合了18个来自不同任务和领域的公开数…

作者头像 李华
网站建设 2026/5/3 9:38:03

python-uniapp微信小程序的农产品质量追溯系统_gkm0juhi

文章目录系统截图项目技术简介可行性分析主要运用技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统截图 python-uniapp_gkmjuhi 微信小程序的农产品质量追溯系统 项目技术简介 Python版本&#xf…

作者头像 李华
网站建设 2026/5/2 20:29:30

知网AIGC查重90%到4%,全靠7个免费降重降Ai工具

市场上的降AI率工具良莠不齐,如何科学判断降AI率效果是很多学生、老师最关心的问题,担心降不来AI率,耽误时间还花不少钱。 本文将从以下五个维度系统,分析2025年主流的8个降AI工具,教大家如何选择适合自己的降AIGC工具…

作者头像 李华
网站建设 2026/5/6 0:19:32

知网AIGC查重原理大揭秘:为什么你改了还是高?7个快速降AI率工具

市场上的降AI率工具良莠不齐,如何科学判断降AI率效果是很多学生、老师最关心的问题,担心降不来AI率,耽误时间还花不少钱。 本文将从以下五个维度系统,分析2025年主流的8个降AI工具,教大家如何选择适合自己的降AIGC工具…

作者头像 李华