2025_NIPS_TOPA: Extending Large Language Models for Video Understanding via Text-Only Pre-Alignment-洪萨配资

文章核心总结与创新点

核心内容

文章提出一种无需真实视频预训练的视频理解框架TOPA（Text-Only Pre-Alignment），通过大语言模型（LLMs）生成文本视频数据集TextVid，实现LLMs与视频模态的预对齐。TOPA利用CLIP模型桥接文本与真实视频的特征空间，通过文本视频摘要、问答等任务训练LLMs，在零样本和微调场景下完成视频理解任务，在EgoSchema等基准测试中表现优于传统视频-文本预训练方法。

创新点

提出文本-only预对齐框架TOPA，无需真实视频数据即可让LLMs具备视频理解能力，大幅降低训练成本。
构建TextVid数据集，包含721K文本视频（Tideo）及高质量标注，覆盖多领域场景，解决传统web视频-文本数据噪声大、监督低效的问题。
设计跨模态特征投影机制，利用CLIP的图像-文本对齐特征空间，实现文本训练模型向真实视频推理的迁移，支持零样本和微调两种推理模式。

翻译部分（Markdown格式）

Abstract

近年来，图像理解的进步得益于网络图像-文本对的广泛应用。然而，尽管存在大量网络视频-文本数据，视频理解仍然是一项挑战。这一困难主要源于视频固有的复杂性，以及近期网络收集的视频-文本数据集在语言监督方面的低效性。在本文中，我们提出文本-only预对齐（TOPA）方法，一种无需在真实视频数据上预训练、即可将大型语言模型（LLM

从设计到动画：如何用AEUX实现Figma/Sketch到After Effects的无缝转换

从设计到动画：如何用AEUX实现Figma/Sketch到After Effects的无缝转换【免费下载链接】AEUX Editable After Effects layers from Sketch artboards 项目地址: https://gitcode.com/gh_mirrors/ae/AEUX 你是否曾经花费数小时将Figma或Sketch中的精美设计手动…

李华

PowerVR Series 1 GPU驱动开源：历史意义与技术解析

1. PowerVR Series 1 GPU驱动开源事件解析Imagination Technologies近日在GitHub上以MIT许可证开源了PowerVR Series 1系列GPU的驱动程序源代码，涉及Midas Arcade、PCX1和PCX2三款早期图形处理器。这批代码的发布具有特殊的历史意义——这些GPU产品最初由VideoLogic…