news 2026/5/6 3:31:29

从视频生成视角出发:英伟达 ChronoEdit 革新图像编辑领域,性能一致性 SOTA

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从视频生成视角出发:英伟达 ChronoEdit 革新图像编辑领域,性能一致性 SOTA

ChronoEdit 基于视频模型,可以通过对时间推理标记进行降噪来可视化其“推理”编辑过程,从而揭示最终输出背后的编辑轨迹。

大型生成模型在图像编辑和上下文图像生成上进步显著,但在确保物理一致性上有关键差距。论文提出 ChronoEdit 框架,把图像编辑重新定义为视频生成问题,利用大型预训练视频生成模型捕捉对象运动和交互的隐式物理特性,还引入时间推理阶段,通过目标帧与推理标记联合去噪构建合理编辑轨迹,限制解空间在物理可行变换范围,推理标记经几步后丢弃以降低成本。此外,引入新基准测试 PBenchEdit,验证了 ChronoEdit 在视觉保真度和物理合理性上超越先进基线方法。

时间推理可视化

ChronoEdit 基于视频模型,可以通过对时间推理标记进行降噪来可视化其“推理”编辑过程,从而揭示最终输出背后的编辑轨迹。

在参考图像和编辑图像的潜在变量之间引入了时间推理标记,作为中间指导,帮助模型“思考”可能的编辑轨迹。在推理阶段,为了提高效率,这些标记无需完全去噪;

物理人工智能相关任务

ChronoEdit 生成的编辑能够忠实地遵循物理一致性,这对于物理 AI 相关场景(例如自动驾驶车辆或人形机器人)尤其重要。

相关链接

  • 论文标题: ChronoEdit:面向图像编辑和世界模拟的时间推理
  • 论文: https://arxiv.org/pdf/2510.04290
  • 主页: https://research.nvidia.com/labs/toronto-ai/chronoedit
  • 体验:https://huggingface.co/spaces/nvidia/ChronoEdit
介绍

大型生成模型的最新进展极大地增强了图像编辑和上下文图像生成能力,但在确保物理一致性方面仍然存在关键差距,即编辑后的对象必须保持连贯性。这种能力对于世界模拟相关任务尤为重要。

论文提出了 ChronoEdit 框架将图像编辑重新定义为视频生成问题。 首先,ChronoEdit 将输入图像和编辑后的图像视为视频的首帧和末帧,从而能够利用大型预训练视频生成模型,这些模型不仅能够捕捉对象的外观,还能通过学习到的时间一致性来捕捉运动和交互的隐式物理特性。其次,ChronoEdit 引入了一个时间推理阶段,该阶段在推理阶段显式地执行编辑操作。在此设置下,目标帧与推理标记联合去噪,以构建一个合理的编辑轨迹,将解空间限制在物理上可行的变换范围内。

推理标记在经过几个步骤后被丢弃,以避免渲染完整视频带来的高昂计算成本。为了验证 ChronoEdit 的性能,引入了 PBenchEdit,这是一个针对需要物理一致性的上下文的图像-提示对的新基准测试,并证明 ChronoEdit 在视觉保真度和物理合理性方面均超越了最先进的基线方法。

方法概述

ChronoEdit流程概述。从右至左,去噪过程始于时间推理阶段,在此阶段,模型会想象并去噪一系列中间帧的短轨迹。这些中间帧充当推理标记,指导编辑以物理上一致的方式展开。为了提高效率,推理标记会在后续的编辑帧生成阶段被丢弃,在该阶段,目标帧会被进一步细化为最终的编辑图像。

实验结果

与基线方法的比较。前两行展示了 ImageEditBasic-Edit Suite(Ye 等人,2025)基准测试的示例,最后一行来自 PBench-Edit,其中 ChronoEdit-Think使用 10 个时间推理步骤进行评估。在两个基准测试中,ChronoEdit 都实现了更忠实地遵循给定指令的编辑,同时保留了场景结构和细节。

关于物理人工智能世界模拟相关任务的定性结果。所有结果均由 ChronoEdit-14B-Think 生成。每组结果均包含一张参考图像(左)和相应的输出图像(右)。ChronoEdit 生成的编辑结果能够精确地遵循给定的指令,同时保留物理人工智能相关场景的场景结构和精细细节。

结论

ChronoEdit 是一个用于图像编辑的基础模型,旨在确保物理一致性。通过重新利用预训练的视频扩散模型并引入时间推理阶段,该方法在保持输入和编辑输出之间一致性的同时,生成合理的变换。大量实验表明,ChronoEdit 在开源模型中达到了最先进的性能。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 21:32:25

这次终于选对AI论文平台,千笔AI VS speedai,专科生写作更省心!

随着人工智能技术的迅猛迭代与普及,AI辅助写作工具已逐步渗透到高校学术写作场景中,成为专科生、本科生、研究生完成毕业论文不可或缺的辅助手段。越来越多面临毕业论文压力的学生,开始依赖各类AI工具简化写作流程、提升创作效率。但与此同时…

作者头像 李华
网站建设 2026/5/3 16:15:29

导师严选8个降AIGC平台,千笔助你轻松降AI率

AI降重工具:让论文更自然,更合规 在当前学术研究日益重视原创性的背景下,越来越多的高校和期刊开始采用AIGC检测系统来识别由人工智能生成的内容。对于继续教育领域的学生而言,如何有效降低论文的AIGC率、去除AI痕迹,并…

作者头像 李华
网站建设 2026/5/4 5:54:05

分区助手2026无损分区+分区扩容+win11或win10系统迁移

封神!这款免费分区神器,小白也能秒变电脑高手,再也不用花钱找维修 谁懂啊家人们!电脑用久了全是糟心事:C盘天天爆红,点开软件卡到转圈;想给新硬盘分区,怕操作失误丢了珍藏的照片和工…

作者头像 李华
网站建设 2026/5/2 9:39:25

电力场景输电线异物检测数据集VOC+YOLO格式1331张6类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):1331 标注数量(xml文件个数):1331 标注数量(txt文件个数):1331 …

作者头像 李华
网站建设 2026/5/5 13:06:35

探索船舶航向控制:基于Norrbin与Nomoto模型的PID与ADRC控制之旅

船舶航向控制 基于Norrbin或者Nomoto船舶模型 PID控制/ADRC控制 (2选一)在船舶航行的广袤世界中,精确的航向控制犹如船只的“导航之星”,至关重要。今天咱们就一起来深入探讨基于Norrbin或者Nomoto船舶模型,运用PID控制以及ADRC控制实现船舶航…

作者头像 李华
网站建设 2026/5/1 6:46:53

德克萨斯仪器 01-30595-804E CACHE 板

德克萨斯仪器 01-30595-804E CACHE 板该型号为德州仪器(Texas Instruments, TI)生产的高速缓存(CACHE)板,通常用于高性能计算或工业控制系统中。以下是相关技术细节和应用场景的整理:功能与特性高速缓存支持…

作者头像 李华