浅谈：token预测和扩散模型-洪萨配资

实际上，无论是下一个token预测还是扩散模型，它们本质上都是自回归模型，即在当前步预测下一步。

下一个 token 预测是在时间维度上进行下一步的预测（分类）；
扩散模型是在空间维度上进行下一步的预测（回归）。

根据我们的分析，扩散模型似乎比下一个 token 预测更为优越。真的是这样吗？

实际上，并非如此。两种自回归模型适用于不同场景的数据。从目前的实践经验来看，下一个 token 预测更适合文字生成，而图像生成则更适合采用扩散模型。

图像和文字有两个不同点，这两个不同点，使得他们各自适用于不同的自回归范式。

首先，图像是连续的，而文字是离散的。连续的特性适合扩散模型，而离散的特性则更适合下一个 token 预测。

此外，无论是下一个 token 预测还是扩散模型，它们都是在做 refine，即通过不断的预测下一步 “精炼” 自己的 “结果”。文字可以无限延伸以进行 refine，但图像具有固定的空间尺寸。这种区别注定了前者适合下一个 token 预测，而后者适合扩散模型。

最后，有没有什么场景既需要下一个 token 预测，又需要扩散模型呢？换句话说，是否有必要将两者结合起来？笔者认为是有的。这个场景就是视频生成，即通过视频的前几帧来预测生成下一帧。

视频生成非常重要，具有一定智能的生物都能对现实世界中物体的轨迹进行预判，这本质上就是视频生成的能力。人类甚至能在大脑中对未发生的行为进行反事实的预演，例如假想杯子摔到水泥地上或沙发上，这也是视频生成的能力。视频生成不仅涵盖了轨迹预测、目标检测和目标跟踪等能力，还包含了对物理规律的预测能力。从某种角度来看，视频生成可以被认为是模拟现实世界的模型。

我们期待下一个token预测和扩散模型完美融合的那一天，也期待着视频生成的 ChatGPT 时刻的到来。那时，我们可能就真的离 AGI 不远了。

终极指南：如何用OpenVINO和Kubeflow构建企业级AI推理工作流

终极指南：如何用OpenVINO和Kubeflow构建企业级AI推理工作流【免费下载链接】openvino OpenVINO™ is an open source toolkit for optimizing and deploying AI inference 项目地址: https://gitcode.com/GitHub_Trending/op/openvino OpenVINO™ 是一个开源…

李华

别再复制粘贴了！CubeIDE里让printf乖乖输出到串口的3种姿势（附代码对比）

CubeIDE中printf串口输出的三种高阶实现方案与工程实践在STM32开发中，调试信息的输出是每个工程师都绕不开的刚需。但当你从各种技术博客复制粘贴printf重定向代码时，是否遇到过这样的困惑：为什么别人的代码在自己的项目上报错？为…

李华

别只写代码了！Pycharm 2023.x这些隐藏效率功能：鼠标滚轮缩放字体、文件模板定制、插件管理

解锁PyCharm 2023.x的隐藏效率武器：从代码编辑器到智能工作台作为一名长期与PyCharm为伴的开发者，我逐渐意识到这个IDE的强大远超乎表面所见。当新手阶段过去后，那些被忽视的高级功能往往能带来质的效率飞跃。今天我们不谈基础配置&#xff…

李华

Heroicons UI在React项目中的最佳实践：打造专业级图标系统的完整指南

Heroicons UI在React项目中的最佳实践：打造专业级图标系统的完整指南【免费下载链接】heroicons-ui 项目地址: https://gitcode.com/gh_mirrors/he/heroicons-ui Heroicons UI是一套包含104个优质SVG图标的开源项目，专为现代Web应用设计。作为R…

李华

浅谈：token预测和扩散模型

如何快速掌握Rust编程：100个练习题的终极学习指南

终极指南：如何用OpenVINO和Kubeflow构建企业级AI推理工作流

别再复制粘贴了！CubeIDE里让printf乖乖输出到串口的3种姿势（附代码对比）

别只写代码了！Pycharm 2023.x这些隐藏效率功能：鼠标滚轮缩放字体、文件模板定制、插件管理

终极指南：如何通过Chromeless第三方API集成增强自动化能力

Heroicons UI在React项目中的最佳实践：打造专业级图标系统的完整指南