news 2026/5/2 3:41:54

浅谈:token预测和扩散模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
浅谈:token预测和扩散模型

实际上,无论是下一个token预测还是扩散模型,它们本质上都是自回归模型,即在当前步预测下一步。

  • 下一个 token 预测是在时间维度上进行下一步的预测(分类);
  • 扩散模型是在空间维度上进行下一步的预测(回归)。

根据我们的分析,扩散模型似乎比下一个 token 预测更为优越。真的是这样吗?

实际上,并非如此。两种自回归模型适用于不同场景的数据。从目前的实践经验来看,下一个 token 预测更适合文字生成,而图像生成则更适合采用扩散模型。

图像和文字有两个不同点,这两个不同点,使得他们各自适用于不同的自回归范式。

首先,图像是连续的,而文字是离散的。连续的特性适合扩散模型,而离散的特性则更适合下一个 token 预测。

此外,无论是下一个 token 预测还是扩散模型,它们都是在做 refine,即通过不断的预测下一步 “精炼” 自己的 “结果”。文字可以无限延伸以进行 refine,但图像具有固定的空间尺寸。这种区别注定了前者适合下一个 token 预测,而后者适合扩散模型。

最后,有没有什么场景既需要下一个 token 预测,又需要扩散模型呢?换句话说,是否有必要将两者结合起来?笔者认为是有的。这个场景就是视频生成,即通过视频的前几帧来预测生成下一帧。

视频生成非常重要,具有一定智能的生物都能对现实世界中物体的轨迹进行预判,这本质上就是视频生成的能力。人类甚至能在大脑中对未发生的行为进行反事实的预演,例如假想杯子摔到水泥地上或沙发上,这也是视频生成的能力。视频生成不仅涵盖了轨迹预测、目标检测和目标跟踪等能力,还包含了对物理规律的预测能力。从某种角度来看,视频生成可以被认为是模拟现实世界的模型。

我们期待下一个token预测和扩散模型完美融合的那一天,也期待着视频生成的 ChatGPT 时刻的到来。那时,我们可能就真的离 AGI 不远了。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/2 3:41:32

如何快速掌握Rust编程:100个练习题的终极学习指南

如何快速掌握Rust编程:100个练习题的终极学习指南 【免费下载链接】100-exercises-to-learn-rust A self-paced course to learn Rust, one exercise at a time. 项目地址: https://gitcode.com/GitHub_Trending/10/100-exercises-to-learn-rust 100-exercis…

作者头像 李华
网站建设 2026/5/2 3:41:31

终极指南:如何用OpenVINO和Kubeflow构建企业级AI推理工作流

终极指南:如何用OpenVINO和Kubeflow构建企业级AI推理工作流 【免费下载链接】openvino OpenVINO™ is an open source toolkit for optimizing and deploying AI inference 项目地址: https://gitcode.com/GitHub_Trending/op/openvino OpenVINO™ 是一个开源…

作者头像 李华
网站建设 2026/5/2 3:39:50

终极指南:如何通过Chromeless第三方API集成增强自动化能力

终极指南:如何通过Chromeless第三方API集成增强自动化能力 【免费下载链接】chromeless 🖥 Chrome automation made simple. Runs locally or headless on AWS Lambda. 项目地址: https://gitcode.com/gh_mirrors/ch/chromeless Chromeless是一款…

作者头像 李华