news 2026/6/10 4:29:01

李飞飞团队新作:无需修改架构,重组数据即显著提升AI对视频理解能力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
李飞飞团队新作:无需修改架构,重组数据即显著提升AI对视频理解能力

一种简单得令人惊讶的方法,只需将现有的短视频素材重组,就能在不增加计算成本的前提下显著提升AI对长视频的理解能力。

斯坦福大学、微软研究院和威斯康辛大学团队,提出了VideoWeave数据中心化方法。

不需要发明新的复杂架构,也不需要耗资巨大的新标注,仅仅通过改变喂给模型的数据组织形式,就能让AI变得更聪明。

训练视频语言模型一直是个烧钱的苦差事。

相比于静态图像,视频多了一个时间维度,处理一秒钟的视频往往需要分析数十帧画面,计算量成倍增加。

更让人头疼的是高质量数据的匮乏,现有的视频数据集大多是只有几秒到一分钟的短片段,配上一句简单的描述。

而在真实应用场景中,我们希望AI能看懂半小时甚至一小时的长电影,理解其中复杂的剧情走向。

用短跑的训练方式去跑马拉松,效果自然不尽如人意。

拼接短视频构建合成长上下文

视频理解的核心难点在于长上下文的处理。

当人类观看一段长视频时,大脑需要不断记忆之前的片段,并将当前的画面与记忆关联起来。

现有的模型训练受限于显存和计算资源,通常只能在一个批次中采样少量帧数,且这些帧数往往来自同一个短视频。

模型很快学会了偷懒,它发现相邻的帧长得差不多,只需要看几眼就能猜出大概,根本不需要建立长期的时空依赖关系。

VideoWeave打破了这种舒适区。

它的逻辑非常直观,既然缺乏带标注的长视频,那就用现有的短视频人工合成。

研究者从WebVid-10M这样的海量短视频库中取材,将多个毫无关联的短视频剪辑拼接在一起,形成一个更长的“合成视频”。

与此同时,这些视频原本的文本描述也被串联起来,作为新的训练目标。

图中展示了VideoWeave的基本原理。

它并没有改变模型的内部构造,而是改变了输入端。如果设定的计算预算是处理16帧画面,传统方法会从一个视频里抽取16帧。

VideoWeave则可能从4个不同的视频里各抽取4帧,或者从16个视频里各抽取1帧,将它们按顺序拼成一个序列。

这种做法巧妙地模拟了长视频中可能出现的场景切换和内容跳跃。

模型被迫去适应画面内容的剧烈变化,它必须时刻保持警惕,因为下一秒的画面可能从“湖上泛舟”瞬间变成“篮球比赛”。

为了回答准确,模型必须真正理解每一帧的内容,而不是依靠惯性去猜测。

这种训练方式在保持计算量不变的情况下,极大地丰富了模型在一次更新中接触到的视觉语义信息。

随机拼接竟然战胜了精心聚类

在确定了拼接策略后,一个自然的问题浮出水面:应该把什么样的视频拼在一起。

直觉告诉我们,如果把内容相似的视频拼在一起,比如都是户外运动或者都是烹饪教学,模型可能更容易理解,形成的合成视频也更像一个连贯的故事。

为了验证这一点,研究团队尝试了基于视觉相似度的聚类拼接。

他们提取了视频的特征,利用改进的 K-均值算法将相似的视频归为一类,然后只从同一个类别中选取视频进行拼接。

下图展示了这种聚类算法产生的视觉群组。

除了视觉上的连贯,研究者还尝试了文本上的连贯。

他们利用GPT-4o-mini将原本独立的短句描述改写成一段流畅通顺的叙事文本,希望这能帮助模型更好地建立语言与视觉的联系。

实验结果却给了所有人一记响亮的耳光。精心设计的视觉聚类和文本润色,表现竟然不如最简单的随机拼接。

表1展示了不同方法在VideoMME基准测试上的得分。随机拼接的VideoWeave方法(Multi-Video FT)不仅击败了仅使用图像训练的基准,也显著优于传统的单视频微调(Single-Video FT)。

进一步的分析揭示了原因。

当视频在视觉上过于相似时,模型又开始偷懒了,它发现根据前几帧的内容就能很容易地推断出后面的内容,从而忽略了细微的差别。

而随机拼接带来的强烈反差,强迫模型必须关注每一个片段的独特特征。

至于文本润色,GPT-4虽然把句子写得漂亮了,但也丢失了原始数据中的具体细节,甚至产生了一些幻觉,导致模型学到了错误的信息。

最原始的、用空格隔开的简单字幕拼接,反而提供了最精准的监督信号。

表2详细列出了不同的拼接数量对性能的影响。

表3则对比了随机选择与聚类选择的效果。

数据表明,在总帧数固定的情况下,将两个不同的视频拼接在一起,即每个视频贡献8帧,达到了最佳的平衡点。

这既保证了每个片段有足够的内部连贯性供模型理解动作,又提供了足够的上下文切换来锻炼模型的适应能力。

数据重组比修改架构更具性价比

VideoWeave证明:数据的使用方式往往比模型架构的微调更关键。

通过简单的数据重组,我们可以在不增加任何硬件投入的情况下,挖掘出模型更大的潜力。

这种方法实际上是在模拟一种更高效的学习过程,就像学生在复习时,不再是死记硬背某一章,而是将不同章节的知识点穿插在一起复习,从而锻炼出融会贯通的能力。

这种能力的提升在定性分析中表现得尤为明显。

图4展示了一个VideoMME中的多项选择题案例。

在这个例子中,模型需要回答厄尔尼诺现象的主要原因。

VideoWeave训练出的模型能够准确捕捉到“信风减弱”这一关键信息,而标准微调的模型则给出了错误的答案。

这说明经过多样化拼接数据训练的模型,在处理复杂信息和排除干扰项方面具有更强的鲁棒性。

图5进一步展示了不同类别下的性能提升情况。

可以看到,在属性感知、空间感知和时序推理等多个维度,VideoWeave都取得了显著的进步。

这并非是因为模型本身变得更大了,而是它看视频的方式发生了质的改变。

它不再盯着单一的画面发呆,而是学会了在不断变化的视觉流中寻找关键线索。

这种训练策略不仅适用于学术研究,对于工业界在大规模视频数据上进行高效预训练也具有极高的参考价值。

参考资料:

https://arxiv.org/pdf/2601.06309

https://github.com/sagarwal02/videoweave

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 19:51:49

python微信小程序的高校自习室在线预约系统

目录高校自习室在线预约系统的摘要开发技术路线结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!高校自习室在线预约系统的摘要 该系统基于Python开发,结合微信小程序前端,旨在解决高校自习室资源分配不均、预约…

作者头像 李华
网站建设 2026/6/6 6:40:37

视频大文件在JAVA网页上传中怎么解决?

我,一个负责过30企业级文件传输项目的上海IT人,想和你聊聊这个100G大文件传输的落地方案 先抛结论:这事儿能成,但得用“定制化研发成熟组件适配”的组合拳。作为公司项目负责人,我刚带着团队啃完类似需求(…

作者头像 李华
网站建设 2026/6/8 9:39:27

计算机毕业设计springboot博客系统的设计与实现 基于SpringBoot框架的个人内容发布平台的设计与实现 基于Java Web的在线日志分享系统的设计与开发

计算机毕业设计springboot博客系统的设计与实现12xosn18 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。在信息爆炸的时代,博客作为个人表达和信息分享的重要平台&am…

作者头像 李华
网站建设 2026/6/6 7:24:43

政务CMS如何用TinyMCE实现PDF表单数据到Word的映射?

VUE后台管理中使用富文本编辑器导入word 文档进行编辑 前言 最近因业务需求在项目中嵌入了tinymce这个编辑器,用于满足平台给用户编辑各类新闻内容什么的业务需求,前后也花了不少时间体验和对比了市面上各类开源编辑器,直接将新闻部门的工作…

作者头像 李华
网站建设 2026/6/9 21:10:50

C# 实现与三菱 PLC 以太网通讯:打造功能强大的上位机程序

C#与三菱PLC以太网通讯程序上位机源码 通过3E帧SLMP /MC协议与三菱FX5U/Q系列PLC通讯 1.该程序可以与FX5U/Q系列PLC以太网通讯,根据3E帧报文写了一个类库,可以读写各种类型和区域变量。 2.支持单个变量读写和数组类型批量读写。 3.可以实时检测网络通断…

作者头像 李华
网站建设 2026/6/9 21:17:49

好写作AI:开题答辩前夜,如何用AI把“还行”变成“必过”

导语:当导师说出“题目再想想”时,你的开题进度条就卡在了99%每个研究生都经历过选题的“死亡循环”:第一版题目:宏大如国家社科基金(导师批:太空泛)第二版题目:具体到某个县城案例&…

作者头像 李华