一个模型干五件事：拆解 NVIDIA Cosmos 3 的物理 AI 全模态架构-洪萨配资

上周二凌晨，我盯着 Jensen Huang 在 GTC Taipei 的 keynote 直播，看到他放出一张架构图的时候，差点以为自己在看科幻电影的概念设定。

一个模型，同时干五件事：看懂视频、生成世界、预测未来帧、学习人类动作、输出机器人关节角度。不是五个模型拼接——是一个。

| 这就是 NVIDIA Cosmos 3。{2026年5月31日 || 来源:NVIDIA GTC Taipei 官方公告} 在 Computex 期间发布，号称全球首个开源 Physical AI 全模态模型（omnimodel）。权重当天上了 Hugging Face，许可证用的 Linux Foundation 的 {OpenMDW-1.1 || 来源:NVIDIA 官方公告}。 |

说实话，"全模态"这种词我见过太多次了——GPT-4o 说过，Gemini 说过，最后不外乎是多加几个 encoder 然后说"我们统一了"。但 Cosmos 3 不一样的地方在于：它的全模态是奔着物理世界去的，不是奔着聊天去的。

这篇文章把 Cosmos 3 的架构拆清楚，给你一个判断：它到底是个营销噱头，还是真的能改变机器人和自动驾驶的开发方式。

为什么需要"一个模型干所有事"？

在 Cosmos 3 之前，搞 Physical AI 的团队（机器人、自动驾驶、工业检测）基本上在搭积木：

先用一个视觉模型"看"场景（感知）
把结果喂给一个世界模型"想象"未来（模拟）
再把模拟结果喂给策略模型"决定"怎么动（决策）
最后输出动作指令

四个模型，三个接口，每个接口都是潜在的错误源。延迟叠加、信息在传递过程中失真、debug 时你根本不知道是哪个模型的锅。

用 NVIDIA 自己的话说：

"A single model that handles all of those tasks does more than improve any one score: it removes inference steps, cuts handoff latency, and simplifies the MLOps stack."

翻译成人话：少折腾 pipeline，多干活。

这其实是个很实际的工程问题。我之前帮一个做仓储机器人的团队调过 pipeline——光是把感知模型的输出格式转成世界模型能吃的输入格式，就写了 200 多行胶水代码。每次上游模型升级，胶水就得重写。如果 Cosmos 3 真能把这些全塞进一个模型，光运维成本就能砍一大截。

双塔架构：Reasoner + Generator

Cosmos 3 的核心设计是一个Mixture-of-Transformers（MoT）双塔结构。

Reasoner Tower（推理塔）

本质是一个自回归视觉语言模型
负责"看懂"当前场景 + 理解指令
输出结构化的上下文信息，告诉 Generator 该干什么
可以理解为"想好了再动手"里的"想好"部分

Generator Tower（生成塔）

本质是一个 Diffusion Transformer
负责"动手"——生成视频帧、世界场景、动作轨迹
不能独立运行，必须依赖 Reasoner 提供的上下文条件

两个塔共享一个关键设计：3D 多维旋转位置编码（mRoPE）。这个东西让模型在处理不同模态时，能保持一致的时空结构——视频的第 3 帧和机器人的第 3 步，在模型眼里是同一个"位置"。

graphTDInput[多模态输入:文本/图像/视频/动作]-->EncoderEncoder[模态编码器<br/>ViT+VAE+动作向量]-->Shared[共享表征空间]Shared-->Reasoner[ReasonerTower<br/>自回归推理]Reasoner-->Context[结构化上下文]Context-->Generator[GeneratorTower<br/>Diffusion生成]Generator-->Output[输出:视频/文本/动作]|Reasoner-.->|mRoPE时空同步|Generator|styleReasonerfill:#dbeafestyleGeneratorfill:#fef3c7styleSharedfill:#d1fae5

为什么这个设计有意思？因为传统的 VLM（视觉语言模型）和视频生成模型是完全不同的技术路线——一个是 next-token prediction，一个是 iterative denoising。NVIDIA 把它们塞进了同一个架构里，通过联合注意力（joint attention）让两个参数集互相通信。

打个比方：这就像一个人左脑负责分析路况，右脑负责画路线图，但两个半脑实时共享信息——而不是像以前那样，左脑分析完写张纸条递给右脑，右脑读完再画。

五种模式，同一套权重

这是我觉得 Cosmos 3 最精巧的设计。同一份模型权重，通过不同的输入输出配置，可以当五种不同的模型用：

模式	输入 → 输出	典型场景
VLM 推理	文本 + 视频 → 文本	仓储机器人回答"架子上有什么"
世界生成	文本/图像/视频 → 视频	生成自动驾驶长尾场景训练数据
正向动力学	动作 + 图像 → 未来视频	机器人"想象"抓取结果再决定是否执行
逆向动力学	视频 → 动作	从人类演示视频中自动提取动作标签
策略模型	图像 + 文本 → 视频 + 动作	完整的机器人控制循环

你发现了吗？最后一个模式——策略模型——就是一个完整的"感知→决策→执行"闭环。以前需要 3-4 个模型协同完成的事情，现在一个 forward pass 搞定。

说到正向动力学模式，我觉得这个最有意思。传统机器人开发中，你只能让机器人去试——试了才知道能不能抓起来。但有了正向动力学模式，机器人可以先在"脑中"模拟一遍抓取过程，如果模拟结果显示抓取失败，就不浪费时间去真的执行了。这对减少物理磨损和提升效率的意义太大了。

三个硬件层级

NVIDIA 这次很实在，直接告诉你不同模型大小对应什么硬件：

级别	参数量	目标硬件	状态
Super	64B（32B + 32B）	Hopper / Blackwell 数据中心 GPU	已发布，Hugging Face 可下载
Nano	16B（8B + 8B）	RTX PRO 6000 工作站	已发布，支持 build.nvidia.com 免 GPU 试用
Edge	4B	Jetson 边缘设备	即将发布（没有具体日期）

注意：Super 和 Nano 的参数量都是"双份"——因为 Reasoner 和 Generator 各占一半。所以 Super 是 32B 推理 + 32B 生成，总共 64B。

一个实际的建议：现阶段别等 Edge。用 Nano 做原型验证，确认可行了再考虑 Edge 是否能满足性能需求。NVIDIA 没有给出 Edge 的发布时间，按照以往经验，"即将发布"可能是三个月也可能是六个月。

对了，如果你没有工作站级 GPU，可以直接去 build.nvidia.com 试 Nano 版——不用 GPU，浏览器里就能跑。

上手试一下：代码示例

以下是一个用 Cosmos 3 Nano 生成文本到图像的示例，基于 Hugging Face Diffusers 库。你需要至少一张 RTX PRO 6000 或同等显存的 GPU：

importtorchfromdiffusersimportCosmos3OmniPipeline# 加载模型pipe=Cosmos3OmniPipeline.from_pretrained("nvidia/Cosmos3-Nano",torch_dtype=torch.bfloat16,device_map="cuda")# 生成一张机器人实验室的场景图prompt=("A medium shot of a modern robotics research laboratory with white walls ""and a gray floor. A robotic arm with a metallic finish is mounted on a ""clean white workbench, its gripper positioned above a row of small colored ""objects. A laptop and neatly arranged tools sit beside the robot. The scene ""is brightly lit by overhead fluorescent lights.")result=pipe(prompt=prompt,num_frames=1,height=720,width=1280)result.video[0].save("cosmos3_lab_scene.jpg",format="JPEG",quality=85)print("Image saved to cosmos3_lab_scene.jpg")

这段代码看着简单，但背后发生的事情相当复杂：Reasoner 先理解你的文字描述，生成结构化的场景表征，然后 Generator 基于这个表征去 denoise 出一张图。整个过程在一个 pipeline 里完成。

如果你想做视频生成，把num_frames改成大于 1 的值就行（比如 121 帧约等于 5 秒的 24fps 视频）。不过视频生成对显存的要求会陡增——Nano 可能需要 24GB+ 显存才能跑起来。

开源许可证：OpenMDW-1.1

| NVIDIA 这次用的不是自己的 NV License，而是 Linux Foundation 的 {OpenMDW-1.1 || 来源:NVIDIA 官方公告}。这个许可证比 NV License 友好得多： |

✅ 允许商业使用
✅ 允许修改和微调
✅ 允许分发和创建衍生模型
✅ NVIDIA 不主张对模型输出的所有权
⚠️ 唯一限制：产品中需要显示"Built on NVIDIA Cosmos"标识

这个"唯一限制"在实操中意味着什么？你的产品网页、关于页面、文档中的某个地方写上这行字就行。不算过分，但确实是个绑定——用了它的模型，就等于在帮 NVIDIA 打广告。

不过话说回来，比起 Llama 的社区许可证或者 Gemini CLI 的"说停就停"，OpenMDW-1.1 已经算相当开放了。至少 Nvidia 没有保留"我随时可以不让你用"的权力。

踩坑和注意事项

研究了两天，列几个我觉得值得注意的点：

1. 基准测试数据要审慎看待

NVIDIA 声称在 Physical AI 排行榜上排名第一（在开源模型中）。但发布时没有提供具体的分数对比表，也没有第三方独立验证。Digital Applied 的评价很中肯：

"The right move is the same one we recommend for any new model — run the eval on your own scenes and tasks, not on the press release."

2. 边缘部署还早

Edge 版（4B）没有发布日期。如果你做的是需要在机器人本体上实时推理的场景，目前只能用 Nano 在工作站上验证，然后等 Edge。

3. Super 版对硬件要求很高

64B 参数意味着你需要至少 128GB 显存才能在 BF16 下跑起来。Hopper（H100/H200）或 Blackwell（B200）级别的数据中心 GPU。不是个人开发者能玩得起的。

4. Diffusers 集成还比较新

Cosmos3OmniPipeline是刚加入 Diffusers 的，文档和社区经验都还不多。遇到 bug 的概率不低，建议先在 GitHub issue 里搜一圈再动手。

和现有方案对比

对比维度	Cosmos 3	旧方案（多模型拼接）	纯 LLM 方案（GPT-4o 等）
物理推理能力	专门训练，原生支持	各模型各管各	无专门训练
机器人动作输出	原生支持关节角度/轨迹	需要单独策略模型	不支持
Pipeline 延迟	单次 forward pass	多模型串联，延迟叠加	N/A
部署复杂度	一个模型	3-4 个模型 + 胶水代码	API 调用
开源程度	OpenMDW-1.1，权重开放	取决于各组件	不开源
硬件门槛	高（需要专业 GPU）	分散但总量不低	无（云 API）
适用领域	机器人/自动驾驶/工业	各领域皆可	通用场景