视频生成状态-洪萨配资

原文：towardsdatascience.com/state-of-video-generation-76595bf75f46

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/0c67fd975ab8b7f525faa1aa80d9c37f.png

Runway Gen2 生成的动画 | 摄像机缩放镜头

虽然 2023 年是由语言模型（LLMs）和图像生成技术的激增所主导的一年，但另一方面，视频生成却相对受到了较少的关注。在研究这个主题时，我发现跟上最新的发展和整体架构设计相当具有挑战性，因为它们代表了各种不同的模型。

在这篇文章中，我旨在分享视频生成在近年来是如何演变的，模型的架构是如何发展的，以及我们现在面临哪些突出的问题。

在撰写本文期间，OpenAI 发布了 Sora——一个具有惊人能力的视频生成模型。虽然其架构尚未公开，但我希望你能对其有所了解。

cdn.embedly.com/widgets/media.html?type=text%2Fhtml&key=a19fcc184b9711e1b4764040d3dc5c07&schema=twitter&url=https%3A//twitter.com/OpenAI/status/1758192957386342435%3Fs%3D20&image=

让我们深入时间线

将这个时间线视为观察视频生成所提出模型演变的旅程。这将帮助我们理解为什么模型今天被设计成这样，并为未来的研究和应用工作提供见解。

每个模型都附有其架构和管道的统一图形表示。将其视为一个简化的图形摘要，而不是深入的模式架构。

那么，让我们从不是那么早的时间点开始——2022 年…

《曙光》

📖 视频扩散模型 [1] | 🗓️ 2022 年 4 月

为了理解这个领域改进的快速动态，我建议从谷歌在利用扩散模型进行视频生成方面的开创性工作开始。虽然这篇论文没有深入细节，但它是创建 T2V（文本-2-视频）扩散模型的第一批尝试之一。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/3a1f13008c0693346a14180f479d1b8b.png

作者图像 | VDM 模式

**里面有什么？**这个模型代表了利用扩散模型从文本描述生成视频的初步尝试。VDM 的架构利用 3D U-Net 和时序注意力来生成跨帧的一致图像。它不包含潜在扩散或扩散模型的级联（你将在未来的工作中看到它的用途）。*该模型可以在视频和图像上联合训练。这是通过在每个时序注意力块内部移除注意力操作并固定注意力矩阵来实现的。

**它在什么上训练？**未公开的包含 1000 万个带字幕视频的数据集。

考虑到已发表论文的简洁风格，这项工作是一个在真实世界示例之前的概念验证演示。但现在轮到另一家公司的时刻了…

第一个级联

📖 Make-a-Video[2] | 🗓️ ️九月 2022

Meta 在 T2V（文本-2-视频）方面的开创性工作。最值得注意的是，在开源未配对视频数据集上训练。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/134db2f6988287b72786f9fb7fbd64df.png

作者提供的图像 | Make-a-video 架构

**里面有什么？**与之前的模型相同，它通过整合时序层扩展了扩散文本到图像（T2I）模型，以实现文本到视频的生成。但你在上面的架构上可能注意到的最大变化是一个级联。作者使用了一系列时空和空间超分辨率扩散模型来提高分辨率和帧率。引用文章中的话：

“级联的不同组件是独立训练的。最初，解码器、先验和两个超分辨率模块仅使用图像进行训练，没有任何文本。基 T2I 模型是唯一接受文本输入的部分，并且与文本-图像对一起训练，而不在视频上进行进一步训练。”

另一个重大步骤是你在架构中注意到的 2+1D。该模型利用“伪 3D”卷积方法来更有效地整合时间信息。简而言之，伪 3D 方法旨在通过更高效的策略模拟全 3D 卷积和注意力机制的效果（这些机制直接在作为 3D 数据的视频上操作）。它首先对每个帧分别应用标准 2D 卷积，然后沿时间轴进行 1D 卷积，以在帧之间共享信息。

**它在什么上训练？**精心挑选的开源数据集混合：2.3B 子集 LAION-5B（其中文本为英语）+ 10M 子集 HD-VILA-100M + WebVid-10M

引入的级联和伪 3D 方法并非仅限于这个模型，但所有这些与开源数据集的结合使得这篇论文成为了一个基础性的论文，许多新的方法在之后都引用和比较了它。

让我们把它做得更大

📖 Imagen Video [3] | 🗓️ ️十月 2022

如果你，在之前的工作之后，想知道“如果我们有一个级联，我们能否做出更大的级联？”那么这里就是你的答案。遇见谷歌的回应，一个更大的级联。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/e5e2fdbbc0a396115858f969b13d9d82.png

图像由作者提供 | Imagen 视频模式

里面有什么？内部包含一套大的 7个模型：文本编码器、基础模型（视频 U-Net）、3 个空间-（SSR）和 2 个时间-（TSR）超分辨率模型。所有 7 个模型都可以并行训练。正如之前的 Make-a-Video[2]中所述，SSR 模型增加所有输入帧的空间分辨率，而 TSR 模型通过填充输入帧之间的中间帧来增加时间分辨率。

值得注意的是，级联中的所有模型都使用了+1 时间维度。这意味着它们都适应了视频格式，所以超分辨率（SSR）可以考虑到视频的时间方面，并且不会产生“闪烁伪影”。为了计算效率，只有基础模型在所有帧上使用时间注意力，而 SSR 和 TSR 使用时间卷积（计算起来“更便宜”）。

关于精确的性能数据，引用文章内容：

…从基础 16 帧低分辨率视频开始，然后上采样生成最终 128 帧视频，分辨率为 1280×768，每秒 24 帧。

**它在什么上训练？**内部数据集 😒 – 1400 万个视频-文本对和 6000 万个图像-文本对 + LAION-400M

虽然看起来最新的模型应该有一个巨大的级联——但它并没有。我们追求简单，虽然级联的一些部分仍然存在（如 SSR），但这个领域几乎所有的新工作都集中在创建一个“统治一切”的模型，并放弃级联。

它能有多长？

📖 NUWA-XL 视频 [4] | 🗓️ ️ 2023 年 3 月

一点被遗忘，但非常有趣的工作，展示了“扩散在扩散之上”用于生成极长剪辑并具有相对良好时间一致性的方法。而不是级联来插值帧，这个模型利用递归。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/5ce61c81022c6d93f394d194fc17fd2e.png

图像由作者提供 | NUWA-XL 模式

此外，也是最早使用潜在表示进行图像处理的工作之一。

里面有什么？这里的核心理念是“扩散在扩散之上”——一种层次化的、从粗到细的视频生成方法，从全局模型开始建立关键帧，并通过局部扩散模型逐步填充细节。这实现了视频段落的并行生成。

作者将 1024 帧的 7.55 分钟减少到 26 秒（但未公开 GPU 配置）。

这里的关键模块是掩码时间扩散（MTD），但不要害怕术语。单词“掩码”意味着它处理全局生成过程（缺乏初始/结束视频帧参考）和局部细化过程（使用现有帧作为指导）。

记得我提到过“潜在表示”吗？作者应用了他们称之为T-KLVAE 潜在编码器的方法。具体来说，引用文章内容：

T-KLVAE 利用预训练的图像 KLVAE（潜在编码器），并添加了时间卷积和注意力层，在保留空间信息的同时，融入时间动态。

简而言之——T-KLVAE 将视频编码成紧凑的维度表示，从而降低计算复杂度。在众多显著特性中，作者认为其首个模型是直接在长片中（高达 3376 帧）进行训练的。

**它是在什么上训练的？**FlintstonesHD——它是大约 6M 帧的 166 个高清卡通剧集。

这项工作独特之处在于它在一个运行中展示了整个生成的卡通剧集，但几乎在其出版后一年，现代 T2V 模型在持续长视频方面仍然存在挑战。这可以部分归因于资源不足或对图像质量与长度的竞争。

潜在表示的兴起

📖 Video LDM [5] | 🗓️ April 2023

现在轮到 SD（StableDiffusion）了。虽然我们在 NUWA-XL 中看到了潜在空间的一个技巧，但这项工作将广受欢迎的 StableDiffusion 转换为 T2V 模型。LDMs（潜在扩散模型）是图像生成的首选架构，现在是时候在视频生成中发光发热了。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/66772e8120320a404f48438696d5fc76.png

图像由作者提供 | Video LDM 架构

**里面有什么？**视频 LDM 扩展了传统 LDM 的潜在空间，引入时间维度。流程很简单：(i) 仅在图像上预训练 LDM（StableDiffusion）(ii) 将时间维度引入潜在空间，并微调视频数据集。(iii) 可选，微调图像上采样器以制作视频超分辨率模型。LDM 的使用使得计算效率更高，从而为生成高分辨率视频（高达 1280 x 2048 像素）铺平了道路。

**它是在什么上训练的？**闭源😒的真实驾驶场景视频包含 683,060 个 8 秒的视频，分辨率为 512 × 1024 + WebVid-10M。

看到 SD 在 T2V 中的应用非常令人兴奋。作者展示了 DreamBooth 可以被“插入”以保留原始外观的特定对象或风格。

此外，通过微调，这种方法可以应用于任何 SD T2I 以转换为 T2V。但如果我们能将任何 SD T2I 模型转换为动画模型，而不需要任何微调呢？这就是我们接下来要研究的地方…

我们能否使任何事物动起来？

📖 AnimateDiff [6] | 🗓️ June 2023

这是最有趣的视频预训练 LDM 应用之一。想法很简单——模型从视频中学习情感先验以动画化堆叠图像。这些运动先验可以叠加到任何 StabelDiffusion 模型上，因此你可以插入个性化的 SD 模型而无需重新训练。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/655f2b51e161758649e3c397b42a2146.png

图像由作者提供 | AnimateDiff 架构

**里面有什么？**在 AnimateDiff 的核心是一个运动建模模块，这是一个在视频数据集上训练的空间-时间转换器。该框架通过称为膨胀的过程将此模块集成到冻结的 T2I 模型（如 Stable Diffusion）中，使原始模型能够处理 5D 视频张量（批量 × 通道 × 帧 × 高度 × 宽度）。深入了解并引用论文：

"时间转换器"由沿着时间轴的几个自注意力块组成，使用正弦位置编码来编码动画中每帧的位置。
5D 视频张量：这是通过将每个 2D 卷积和注意力层转换为仅空间伪 3D 层来实现的。5D 视频张量以批量 × 通道×帧×高度×宽度为输入

运动先验的膨胀使我们能够在推理期间用具有相同架构的自定义模型替换冻结的 T2I 组件。这消除了将 T2I 转换为 T2V 的预训练步骤。

**它在什么上训练？**运动先验（时间转换器）是在 WebVid-10M 上训练的。

这真是一项了不起的工作，具有高度维护的代码库，并更新了新版本，例如，支持 SD-XL 或域适配器 LoRA。考虑到大量的个性化 T2I SD 模型，这是一个巨大的创意领域。

混合

📖 Show-1 [7] | 🗓️ 2023 年 9 月

我们能否合并潜在表示和像素表示？最后，为什么不呢？

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f2433f9450445a252b74e3d20493f5e0.png

作者图片 | Show-1 模式

认识一下 Show-1 –混合模型，它同时利用基于像素和基于潜在扩散的模型。

**里面有什么？**它有一个 3 个基于像素的扩散模型（DeepFloyd作为基线 T2I 模型用于关键帧，一个时间插值和一个分辨率插值）和 1 个 LDM 作为超分辨率模型的级联结构。引用论文：

模型首先使用基于像素的视频扩散模型（VDMs）来创建与文本提示紧密对齐的低分辨率视频。然后，它使用基于潜力的 VDMs 将低分辨率输出上采样到高分辨率视频。

作者认为基于像素的表示适合运动，而潜在表示是超分辨率的好专家。他们通过在评估中展示比 VideoLDM 或 Make-a-Video[2]更优越的指标来支持他们的论点。

**它在什么上训练？**所有都爱 WebVid-10M

这篇论文提出了一个非常有趣的问题：潜在表示对视频来说好吗？最后，你将看到一个意想不到的答案。

开源里程碑

📖 稳定视频扩散[8] | 🗓️ 2023 年 11 月

写这篇帖子时最引人注目的开源 T2V 模型。尽管与 Video LDM 有很多相似之处，但这篇论文的最大价值是数据整理。作者详细描述了他们如何整理了一个大型视频数据集。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/66772e8120320a404f48438696d5fc76.png

作者提供的图片 | SVD 架构

不要将这项工作视为一个新模型，而应将其视为对如何创建和整理所有那些封闭源数据集的答案。

**里面有什么？**SVD 与视频 LDM[5]具有相同的架构。（i）模型首先在图像-文本对上训练 SD 2.1。（ii）插入时间卷积和注意力层以适应视频生成，并在大量视频数据上训练。（iii）在较小的高质量视频子集上微调模型

这篇论文的主要重点是数据处理，以创建精心整理的视频-文本对。它从剪辑检测管道开始，以防止突然的剪辑和淡入淡出影响合成的视频。每个视频剪辑都使用三种合成字幕方法进行标注：

CoCa (Image Captioner)：标注每个剪辑的中帧。
V-BLIP：提供基于视频的标题。
基于 LLM 的摘要：结合前两个字幕，创建剪辑的简洁描述。

最后，他们通过测量平均光流并使用 OCR 去除文本过多的剪辑来过滤静态场景。

**训练数据是什么？**封闭源大型视频数据集。但至少他们展示了如何创建这样的数据集 🙂

没有私有视频数据集？没问题！

📖 VideoCrafter-v2[9] | 🗓️ ️ December 2023

另一个从 Stable Diffusion 派生出的 T2V。这里的重点是详细的训练过程和对作者如何克服仅使用可用低质量视频与高质量生成图像的局限性的描述。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ae9c879fc4519732a6e694e0f182ba59.png

作者提供的图片 | VideoCrafterV2 架构

**里面有什么？**采用与 VideoCrafterV1[2]和其他 T2V LDMs 相似的架构，结合了从 SD 2.1 初始化的权重空间模块和初始化为零的时间模块。结构非常简单，没有帧插值或上采样；正因为如此，以及硬件能力，该模型可以生成最长 2 秒的视频。

最初，获得一个完全训练的视频模型。然后，**仅对该模型的空間模块进行高质生成图像的微调。**最终，你得到一个与之前的 SDV[4]相比具有不同质量的 T2V 模型，但未使用私有数据集。特别感谢详细的实验设置和对视频上 T2I 微调不同方法的描述。

**训练数据是什么？**主要在 WebVid-10M 和 LAION-COCO 上训练视频。为了微调空间模块，作者使用了Journeydb *[Junting Pan et al]*的高质量生成图像数据集。

接下来。厌倦了扩散模型？可以理解。幸运的是，人类的创造力从未停止，引领我们进行创新，即-

“让我们将 LLM 应用到任何地方和任何事情上”

LLM 加入对话

📖 VideoPoet [10] | 🗓️ ️ December 2023

在所有这些中，最独特的论文。与依赖于扩散的传统方法不同，VideoPoet 利用自回归LLM来生成视频甚至声音。

https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a4e02e6b915f12569bad4216badd4b40.png

作者提供的图片 | VideoPoet 架构

在所有这些中，最独特的论文。与依赖于扩散的传统方法不同，VideoPoet 利用自回归 LLM 来生成视频甚至声音。

**里面有什么？**这个特定模型的内部部分令人兴奋，但对于与多模态 LLM 一起工作的人来说可能相当熟悉。在这里，作者利用了一种仅具有解码器的 LLM 架构，能够接受图像、视频和音频作为离散标记。

要创建这样的标记，采用 MAGVIT-v2 进行图像和视频联合标记化，以及 SoundStream 标记化器进行音频，将第一帧和随后的 4 帧块编码为表示的标记。

由于处理不同模态输入的能力，作者表示，这使模型能够执行广泛的视频生成任务，具有零样本能力：文本到视频、图像到视频、视频风格化和视频到音频任务。此外，它可以生成长视频，正如文章中引用的那样：

该模型可以通过将视频的最后几秒条件化以预测下一秒来生成更长的视频，从而允许创建任何所需长度的视频，同时保持强烈的物体身份保留。

**它在什么上训练？**未公开 **** 1B 个图像-文本对和 ∼270M 个视频

与 Show-1 类似，这个模型提出了另一个问题——**我们真的可以应用 LLM 吗？我们应该真的使用扩散吗？**虽然这个讨论仍然开放，但我们可能可以回答之前的问题。

❓ 突出的问题 ❓

这是如何实现的？

在 OpenAI 发布 Sora 之后也开始质疑现实了吗？不幸的是，技术论文看起来像是一篇博客文章，并没有披露详细的架构。我们可以推测 LLM 与在大量数据上训练的扩散模型某种形式的融合。

cdn.embedly.com/widgets/media.html?type=text%2Fhtml&key=a19fcc184b9711e1b4764040d3dc5c07&schema=twitter&url=https%3A//twitter.com/sama/status/1758218820542763012%3Fs%3D20&image=

LLM 与扩散模型及其他模型相比？

扩散模型是不是最好的？我们看到当前的视频模型都是基于扩散模型的。基本思路是生成帧，然后在帧之间创建时间上的一致动画。但我们还看到了 LLM 生成标记，然后解码成图像甚至声音。今年我们会看到新的突破性架构吗？

时间一致性

这里只有少数工作针对长视频生成。主要是因为扩散模型缺乏对“变化视角”的理解——当摄像机从一个视角跳到另一个视角时。这就是为什么大多数模型都是通过过滤这些变化来训练，以消除“闪烁”——当模型在未过滤的数据上训练时，视频中图像外观的变化。

哪里可以获得数据？

当前的主要问题是获取高质量数据。这主要涉及到标注数据，因为收集视频和标注它们需要花费金钱，而大多数实验室都负担不起。然而，我们已经看到一些模型如何通过使用生成的图像数据集来克服这个问题。今年我们会看到一个新的“圣杯”视频数据集吗？

你认为对于视频生成模型来说，目前最大的未解之谜是什么？

引用

[1] J. Ho, T. Salimans, A. Gritsenko, W. Chan, M. Norouzi, D. J. Fleet, “视频扩散模型” (2022), arXiv:2204.03458.

[2] U. Singer, A. Polyak, T. Hayes, X. Yin, J. An, S. Zhang, Q. Hu, H. Yang, O. Ashual, O. Gafni, D. Parikh, S. Gupta, Y. Taigman, “Make-a-Video: 无需文本-视频数据的文本到视频生成” (2022), arXiv:2209.14792.

[3] J. Ho, W. Chan, C. Saharia, J. Whang, R. Gao, A. Gritsenko, D. P. Kingma, B. Poole, M. Norouzi, D. J. Fleet, T. Salimans, “Imagen Video: 使用扩散模型进行高清视频生成” (2022), arXiv:2210.02303.

[4] S. Yin, C. Wu, H. Yang, J. Wang, X. Wang, M. Ni, Z. Yang, L. Li, S. Liu, F. Yang, J. Fu, G. Ming, L. Wang, Z. Liu, H. Li, N. Duan, “NUWA-XL: 用于视觉合成的统一生成预训练” (2023), arXiv:2303.12346.

[5] A. Blattmann, R. Rombach, H. Ling, T. Dockhorn, S. W. Kim, S. Fidler, K. Kreis, “对齐你的潜在变量：使用潜在扩散模型进行高分辨率视频合成” (2023), arXiv:2304.08818.

[6] Y. Guo, C. Yang, A. Rao, Z. Liang, Y. Wang, Y. Qiao, M. Agrawala, D. Lin, B. Dai, “AnimateDiff: 无需特定调整即可动画化个人定制的文本到图像扩散模型” (2023), arXiv:2307.04725.

[7] D. J. Zhang, J. Z. Wu, J.-W. Liu, R. Zhao, L. Ran, Y. Gu, D. Gao, M. Z. Shou, “Show-1: 将像素和潜在扩散模型结合用于文本到视频生成” (2023), arXiv:2309.15818.

[8] A. Blattmann, T. Dockhorn, S. Kulal, D. Mendelevitch, M. Kilian, D. Lorenz, Y. Levi, Z. English, V. Voleti, A. Letts, V. Jampani, R. Rombach, “稳定视频扩散：将潜在视频扩散模型扩展到大型数据集” (2023), arXiv:2311.15127.

[9] H. Chen, Y. Zhang, X. Cun, M. Xia, X. Wang, C. Weng, Y. Shan, “VideoCrafter2: 克服高质量视频扩散模型的数据限制” (2024), arXiv:2401.09047.

[10] D. Kondratyuk, L. Yu, X. Gu, J. Lezama, J. Huang, R. Hornung, H. Adam, H. Akbari, Y. Alon, V. Birodkar, Y. Cheng, M.-C. Chiu, J. Dillon, I. Essa, A. Gupta, M. Hahn, A. Hauth, D. Hendon, A. Martinez, D. Minnen, D. Ross, G. Schindler, M. Sirotenko, K. Sohn, K. Somandepalli, H. Wang, J. Yan, M.-H. Yang, X. Yang, B. Seybold, L. Jiang, “VideoPoet: 自回归视频生成” (2023), arXiv:2312.14125.

[11] O. Bar-Tal, H. Chefer, O. Tov, C. Herrmann, R. Paiss, S. Zada, A. Ephrat, J. Hur, G. Liu, A. Raj, Y. Li, M. Rubinstein, T. Michaeli, O. Wang, D. Sun, T. Dekel, I. Mosseri, “Lumiere: 使用基于像素的扩散模型增强视频生成” (2024), arXiv:2401.12945.