paper: https://arxiv.org/pdf/2512.08765
code: https://github.com/ali-vilab/Wan-Move/
文章目录
- 核心问题
- 核心思想
- 方法
- 数据集构建
- Benchmark 方法
- 主要贡献
核心问题
旨在解决现有运动可控视频生成方法中存在的控制粒度粗糙和模型可扩展性有限的问题 。
- 挑战性:现有的方法通常依赖额外的运动编码器(如 ControlNet),这不仅增加了模型复杂性,还可能在编码过程中导致运动信号衰减,且难以在大规模基础模型上进行高效微调 。
核心思想
关键洞察是:直接通过编辑图像条件特征来注入运动信息,而无需添加任何辅助模块。
- 动机:利用 VAE 模型的平移等变性(Translation Equivariance) 。如果第一帧的特征代表了物体外观,那么将这些特征沿轨迹传播到后续帧的对应位置,就能自然地引导模型合成符合预期运动的视频 。
方法
Wan-Move构建在 Wan-I2V-14B 基础模型之上,核心流程如下:
- 潜在轨迹映射:首先使用点轨迹(Point Trajectories)表示运动,并将其从像素空间确定性地投影到潜在空间坐标中