news 2026/7/4 2:36:16

【vid-llm】TVHighlights和LTV-HD高光检测

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【vid-llm】TVHighlights和LTV-HD高光检测

note

  • 提出 TVHighlights​ 数据集和 LTV-HD​ 训练框架。前者利用真实用户的二次创作行为作为“隐式投票”来筛选高光,后者通过“弱监督预训练 + LLM与轻量模型迭代协作”实现免人工训练。
  • 问题:
    • 问题一:关于HPI的"套路总结"到底学到了什么?
    • 问题二:NLC的标签动态更新会不会"矫枉过正"?
    • 问题三:实际落地时的成本和效率问题

文章目录

  • note
  • 一、核心痛点与解决方案
  • 二、TVHighlights
    • 1、TVHighlights 数据集构建
    • 2、LTV-HD 框架机制
  • 三、实验结果与结论
  • Reference

一、核心痛点与解决方案

论文:TVHighlights- LLM-Guided Human-Free Collaborative Training for Video Highlight Detection in Movies and TV Dramas

  • 痛点:电影/电视剧高光检测缺乏真实基准,且人工标注成本高、主观性强;直接使用大模型(LLM)标注存在幻觉和不一致推理问题。
  • 方案:提出TVHighlights数据集和LTV-HD训练框架。前者利用真实用户的二次创作行为作为“隐式投票”来筛选高光,后者通过“弱监督预训练 + LLM与轻量模型迭代协作”实现免人工训练。

这篇论文的核心创新点在于完全摒弃人工标注,通过“社区投票”构建数据集,并利用大模型与轻量模型的闭环协作实现自我进化。

二、TVHighlights

1、TVHighlights 数据集构建

  • 来源:从短视频平台收集约5000个高参与度影视二创视频。
  • 训练集(社区投票):利用视频指纹技术追溯片段来源,将重复被使用的片段视为“高光”,以此计算投票分数,构建了1368个视频的训练集。
  • 测试集(人工校验):采用多人标注取多数票的方式构建353个测试数据,并按动作、情感等分为5个语义类别。

2、LTV-HD 框架机制

该框架训练一个轻量级局部时间关系多模态网络(LTRM),分为两个阶段:

  • 第一阶段(弱监督预训练):利用训练集中的视频级标签,通过多示例学习(MIL)框架,让模型初步学会区分高光与非高光。
  • 第二阶段(迭代协作训练):这是论文的核心,包含三个组件的循环:
    1. LLM引导标注(LLG):由多模态大模型(MLLM)生成片段描述,再由大语言模型(LLM)结合思维链(CoT)推断类别并给出高光分数,生成细粒度伪标签。
    2. 噪声标签清洗(NLC):针对LLM生成的噪声标签,设计了一套损失函数组合(分类损失、兼容性损失、清晰度损失),在训练过程中动态更新和修正标签,防止模型拟合噪声。
    3. 高光模式归纳(HPI):从模型预测的高置信度片段中,反向提炼出结构化的“类别特定高光模式”(例如“武侠剧中的激烈打斗”),再反馈给LLM以指导下一轮的标注,从而持续提升标签质量。

相关例子:

三、实验结果与结论

  • 性能表现:在TVHighlights数据集上,最终模型(Stage 2)达到了92.74% AUC71.20% AP,显著优于现有的SOTA方法和通用的多模态大模型(如Qwen-vl-max、Gemini)。
  • 抗噪能力:在YouTube Highlights的噪声测试中,面对极度嘈杂的MTurk标签,对比方法UMT性能下降1.54%,而LTV-HD仅下降0.32%,验证了NLC模块的有效性。
  • 跨类别泛化:在“情感高潮”等需要细腻理解的复杂场景下,LTV-HD的优势尤为明显,证明了其从数据中学习多样化模式的能力强于依赖固定语义的方法。

Reference

[1] TVHighlights- LLM-Guided Human-Free Collaborative Training for Video Highlight Detection in Movies and TV Dramas

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/4 2:34:16

OpenCV图像处理实战:缩放、翻转与拼接优化技巧

1. OpenCV图像处理基础:缩放、翻转与拼接实战指南在计算机视觉项目中,图像的基础处理往往是整个流程的第一步。作为从业十余年的开发者,我发现很多新手在处理图像缩放、翻转和拼接时容易陷入各种陷阱。本文将分享我在实际项目中总结的高效处理…

作者头像 李华
网站建设 2026/7/4 2:33:58

AI驱动EDA技术:逻辑综合与验证的创新应用

1. AI驱动EDA技术变革的底层逻辑 芯片设计领域正经历一场由人工智能技术引领的范式转移。传统EDA工具依赖基于规则的确定性算法,面对7nm以下工艺节点的设计复杂度呈现指数级增长时已显疲态。以逻辑综合环节为例,工程师需要在上百亿晶体管构成的解空间中找…

作者头像 李华
网站建设 2026/7/4 2:33:41

零基础2小时搭建CV环境:OpenCV+PyTorch图像分类实战

计算机视觉入门时,很多人会陷入一个误区:要么被海量的理论公式吓退,要么在配置环境的第一步就卡住,最终项目没跑起来,热情也消磨殆尽。真正的入门不是看100集视频,而是用最短的路径,亲手搭建一个…

作者头像 李华
网站建设 2026/7/4 2:33:07

计算机视觉入门实战:从OpenCV到PyTorch的完整项目搭建指南

从零到一:构建你的计算机视觉实战能力栈想入门计算机视觉,却被Python、OpenCV、PyTorch、深度学习这些名词绕晕了头?网上教程要么太浅显只讲概念,要么太深奥直接上论文,真正能让你动手做出东西的实战路径在哪里&#x…

作者头像 李华
网站建设 2026/7/4 2:32:49

PE1200×1500复摆颚式破碎机设计与CAD图纸要点解析

1. 项目概述:PE12001500复摆颚式破碎机设计PE12001500复摆颚式破碎机是矿山、建材、冶金等行业中用于粗碎作业的关键设备。作为机械设计领域的典型项目,其设计过程涉及运动学分析、动力学计算、结构强度校核等核心技术,而CAD图纸则是设计成果…

作者头像 李华
网站建设 2026/7/4 2:29:50

饰品ai模特图生成轻松实现,电商人穿戴展示与图片处理新利器

在电商饰品展示与模特图设计领域,饰品ai模特图生成已经成为商家关注的重点。作为一个深度参与电商图片制作与设计的从业者,我对多个热门AI图片、素材及视频工具进行了详细体验和梳理。 作图鸟 作图鸟地址:https://www.zuotuniao.com/?from…

作者头像 李华