note
- 提出 TVHighlights 数据集和 LTV-HD 训练框架。前者利用真实用户的二次创作行为作为“隐式投票”来筛选高光,后者通过“弱监督预训练 + LLM与轻量模型迭代协作”实现免人工训练。
- 问题:
- 问题一:关于HPI的"套路总结"到底学到了什么?
- 问题二:NLC的标签动态更新会不会"矫枉过正"?
- 问题三:实际落地时的成本和效率问题
文章目录
- note
- 一、核心痛点与解决方案
- 二、TVHighlights
- 1、TVHighlights 数据集构建
- 2、LTV-HD 框架机制
- 三、实验结果与结论
- Reference
一、核心痛点与解决方案
论文:TVHighlights- LLM-Guided Human-Free Collaborative Training for Video Highlight Detection in Movies and TV Dramas
- 痛点:电影/电视剧高光检测缺乏真实基准,且人工标注成本高、主观性强;直接使用大模型(LLM)标注存在幻觉和不一致推理问题。
- 方案:提出TVHighlights数据集和LTV-HD训练框架。前者利用真实用户的二次创作行为作为“隐式投票”来筛选高光,后者通过“弱监督预训练 + LLM与轻量模型迭代协作”实现免人工训练。
这篇论文的核心创新点在于完全摒弃人工标注,通过“社区投票”构建数据集,并利用大模型与轻量模型的闭环协作实现自我进化。
二、TVHighlights
1、TVHighlights 数据集构建
- 来源:从短视频平台收集约5000个高参与度影视二创视频。
- 训练集(社区投票):利用视频指纹技术追溯片段来源,将重复被使用的片段视为“高光”,以此计算投票分数,构建了1368个视频的训练集。
- 测试集(人工校验):采用多人标注取多数票的方式构建353个测试数据,并按动作、情感等分为5个语义类别。
2、LTV-HD 框架机制
该框架训练一个轻量级局部时间关系多模态网络(LTRM),分为两个阶段:
- 第一阶段(弱监督预训练):利用训练集中的视频级标签,通过多示例学习(MIL)框架,让模型初步学会区分高光与非高光。
- 第二阶段(迭代协作训练):这是论文的核心,包含三个组件的循环:
- LLM引导标注(LLG):由多模态大模型(MLLM)生成片段描述,再由大语言模型(LLM)结合思维链(CoT)推断类别并给出高光分数,生成细粒度伪标签。
- 噪声标签清洗(NLC):针对LLM生成的噪声标签,设计了一套损失函数组合(分类损失、兼容性损失、清晰度损失),在训练过程中动态更新和修正标签,防止模型拟合噪声。
- 高光模式归纳(HPI):从模型预测的高置信度片段中,反向提炼出结构化的“类别特定高光模式”(例如“武侠剧中的激烈打斗”),再反馈给LLM以指导下一轮的标注,从而持续提升标签质量。
相关例子:
三、实验结果与结论
- 性能表现:在TVHighlights数据集上,最终模型(Stage 2)达到了92.74% AUC和71.20% AP,显著优于现有的SOTA方法和通用的多模态大模型(如Qwen-vl-max、Gemini)。
- 抗噪能力:在YouTube Highlights的噪声测试中,面对极度嘈杂的MTurk标签,对比方法UMT性能下降1.54%,而LTV-HD仅下降0.32%,验证了NLC模块的有效性。
- 跨类别泛化:在“情感高潮”等需要细腻理解的复杂场景下,LTV-HD的优势尤为明显,证明了其从数据中学习多样化模式的能力强于依赖固定语义的方法。
Reference
[1] TVHighlights- LLM-Guided Human-Free Collaborative Training for Video Highlight Detection in Movies and TV Dramas