文章核心总结与创新点
核心内容
文章提出一种无需真实视频预训练的视频理解框架TOPA(Text-Only Pre-Alignment),通过大语言模型(LLMs)生成文本视频数据集TextVid,实现LLMs与视频模态的预对齐。TOPA利用CLIP模型桥接文本与真实视频的特征空间,通过文本视频摘要、问答等任务训练LLMs,在零样本和微调场景下完成视频理解任务,在EgoSchema等基准测试中表现优于传统视频-文本预训练方法。
创新点
- 提出文本-only预对齐框架TOPA,无需真实视频数据即可让LLMs具备视频理解能力,大幅降低训练成本。
- 构建TextVid数据集,包含721K文本视频(Tideo)及高质量标注,覆盖多领域场景,解决传统web视频-文本数据噪声大、监督低效的问题。
- 设计跨模态特征投影机制,利用CLIP的图像-文本对齐特征空间,实现文本训练模型向真实视频推理的迁移,支持零样本和微调两种推理模式。
翻译部分(Markdown格式)
Abstract
近年来,图像理解的进步得益于网络图像-文本对的广泛应用。然而,尽管存在大量网络视频-文本数据,视频理解仍然是一项挑战。这一困难主要源于视频固有的复杂性,以及近期网络收集的视频-文本数据集在语言监督方面的低效性。在本文中,我们提出文本-only预对齐(TOPA)方法,一种无需在真实视频数据上预训练、即可将大型语言模型(LLM