推理架构的转变-洪萨配资

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/

如果你正在寻找一家最适合 IPO 的公司类型，那么在 2026 年 5 月成为一家芯片公司，几乎没有比这更好的时间点了。路透社周末报道称：

Cerebras Systems 计划最快于周一提高其首次公开募股（IPO）的发行规模和发行价格。两位知情人士向路透社透露，由于市场对这家人工智能芯片制造商股票的需求持续攀升，公司正在考虑将 IPO 价格区间从此前的每股 115 至 125 美元提高至 150 至 160 美元，并将发行股票数量从 2800 万股提高到 3000 万股。由于相关信息尚未公开，消息人士要求匿名。

推动半导体股票持续上涨的根本动力，当然仍然是 AI，尤其是市场逐渐意识到：Agent（智能体）将需要极其庞大的计算能力。不过，Cerebras 所代表的意义，其实远不止于此。过去 AI 的计算故事几乎完全围绕 GPU 展开，尤其是 Nvidia 的 GPU，但未来的计算架构将越来越趋向异构化。

GPU 时代

关于 GPU（图形处理器）如何成为 AI 核心基础设施的故事，其实已经被反复讲述过很多次了，但简单概括如下：

由于在计算机屏幕上绘制像素本身就是一个并行化过程，因此处理单元数量与图形渲染速度之间存在直接关系；而 AI 相关计算同样也是并行化过程，因此处理单元数量与 AI 运算速度之间也存在直接关系。

Nvidia 通过让图形处理器具备可编程能力，实现了这种双用途特性，并构建了 CUDA 这一完整的软件生态系统，使开发者能够方便地进行编程。

图形处理与 AI 的最大区别，在于问题规模。AI 模型远远大于游戏纹理，因此 GPU 必须配备大量高带宽内存（HBM），并且需要极其先进的芯片间互联网络，以便让多个芯片协同工作、形成一个统一的可寻址系统。在这两个方向上，Nvidia 都是行业领导者。

GPU 最主要的应用场景一直是训练，而训练尤其会强调第三点的重要性。虽然每个训练步骤内部的计算都高度并行，但训练步骤之间本身却是串行的：每一块 GPU 都必须先把自己的结果同步给其他 GPU，下一步训练才能开始。这也是为什么一个万亿参数模型，需要数万个 GPU 的总内存才能装下，并且这些 GPU 必须像一个统一系统一样通信。Nvidia 在两个关键领域都占据统治地位：一方面是提前锁定 HBM 供应，另一方面是长期投资于网络互联。

当然，训练并不是 AI 唯一的工作负载，另一个关键场景是推理（Inference）。推理主要包括三个部分：

Prefill（预填充）阶段，会将 LLM 所需理解的全部上下文编码成模型可理解的状态；这一阶段高度并行化，因此计算能力非常重要。

Decode（解码）的第一部分，是读取 KV Cache（键值缓存），它存储了上下文以及 Prefill 阶段生成的结果，用于进行 Attention 计算。这是一个串行步骤，对带宽要求极高，而且内存需求会随着上下文增长而不断扩大。

Decode 的第二部分，则是针对模型权重执行前馈计算。这同样是一个串行步骤，同样高度依赖带宽，而内存需求则取决于模型本身的大小。

这两个 Decode 步骤会在模型每一层之间交替执行，也就是说，Decode 本质上是串行的，并且受限于内存带宽。每生成一个 Token，都必须完整读取两类内存池：

一类是随着上下文不断扩大的 KV Cache；

另一类则是模型权重本身。

而这两部分都必须被完整读取，才能生成一个新的输出 Token。

GPU 能够同时满足这三类需求：

Prefill 阶段需要高计算能力；

KV Cache 和模型权重需要大量 HBM；

当单个 GPU 内存不足时，还需要芯片间高速网络将多个 GPU 的内存整合在一起。

换句话说，适合训练的架构，同样也适合推理。只要看看 SpaceX 与 Anthropic 的合作协议就明白了。Anthropic 在博客中写道：

我们已经与 SpaceX 达成协议，将使用其 Colossus 1 数据中心的全部计算能力。这意味着我们将在本月内获得超过 300 兆瓦的新计算资源（超过 22 万块 NVIDIA GPU）。这些新增算力将直接提升 Claude Pro 和 Claude Max 用户的服务能力。

SpaceX 则保留了 Colossus 2，很可能用于未来模型训练以及现有模型推理。而 xAI 能够在同一个数据中心同时完成训练与推理，本质原因就在于：两者都可以依赖 GPU 完成。事实上，Anthropic 正在租用的 Colossus 1 GPU，最初也是用于训练的。GPU 的这种高度灵活性，本身就是巨大优势。

理解 Cerebras

Cerebras 所做的事情则完全不同。

一块硅晶圆的直径通常为 300mm，但光刻设备存在所谓的“Reticle Limit（曝光区域限制）”，大约为 26mm × 33mm。这实际上决定了单块芯片的尺寸上限；如果要超越这一限制，就必须通过芯片间互联将多块芯片连接在一起，而 Nvidia 的 B200 正是这么做的。

而 Cerebras 则发明了一种技术，可以在所谓的 “scribe lines”（曝光边界）上继续布线，从而让整块晶圆变成一颗完整芯片，而无需依赖相对较慢的芯片间连接。

结果就是：它制造出了一颗拥有巨大计算能力以及超大 SRAM 的芯片，而且访问速度极其惊人。

具体数字如下：

WSE-3（Cerebras 最新芯片）拥有：

44GB 片上 SRAM

21 PB/s 的内存带宽

而 H100 则拥有：

80GB HBM

3.35 TB/s 带宽

也就是说，WSE-3 的内存容量仅略高于 H100 的一半，但内存带宽却高出 6000 倍。

之所以拿 H100 对比，是因为 H100 是目前推理领域最广泛使用的芯片，而推理显然也是 Cerebras 最擅长的领域。

当然，你也可以用 Cerebras 做训练，但其芯片间互联能力并不算突出。这意味着它巨大的计算能力和片上内存，在训练时其实无法被充分利用。真正有趣的地方在于：它可以以极高速度输出 Token。

不过，这里也存在限制：

只要模型和 KV Cache 能完全放进片上内存，Cerebras 的速度体验会极其惊艳；

但一旦需要更大内存——无论是更大的模型，还是更大的 KV Cache——那么 Cerebras 的方案就会失去意义，尤其考虑到它极高的成本。

毕竟，“整片晶圆做芯片”这一技术路径，会带来极其严苛的良率挑战，而这也极大推高了成本。

尽管如此，我仍然认为市场会存在对 Cerebras 这类芯片的需求。目前公司重点强调其在代码生成领域的价值——因为推理模型会生成大量 Token，而更高的 Token/s 意味着“思考速度”更快。但我认为这只是一个暂时性的应用场景，原因后面会进一步解释。

真正重要的，其实是“人类等待答案的时间”。随着 AI 可穿戴设备等产品逐渐普及，尤其是在语音交互场景下，Token 生成速度将直接影响用户体验。

Agent 推理

我之前曾在《Agents Over Bubbles》中提到，我们已经经历了 LLM 时代的三个关键拐点：

ChatGPT 展示了 Token 预测本身的巨大价值；

o1 引入了“推理（Reasoning）”概念，即更多 Token 可以带来更好的答案；

Opus 4.5 与 Claude Code 则首次展示了真正可用的 Agent，它们能够借助推理模型与工具链协作，真正完成任务。

这些统称为“推理（Inference）”，但未来人们会越来越清楚地意识到：

“给出答案”与“完成任务”其实是两种完全不同的推理形式。

我把前者称为：

Answer Inference（答案型推理）

后者称为：

Agentic Inference（智能体推理）

Cerebras 所瞄准的市场，其实是“答案型推理”。

而从长期来看，我认为“智能体推理”的架构，将会与当前 GPU 路线乃至 Cerebras 路线都截然不同。

我前面提到，高速推理在代码生成场景下只是暂时需求。因为当前 LLM 编程仍然需要“人类参与”：

人类定义需求；

检查结果；

提交 Pull Request；

等等。

但未来很容易想象：这一切都将完全由机器自动完成。

这不仅适用于编程，也适用于广泛的 Agent 工作。真正强大的 Agent，不是“替人工作”，而是“无需人类参与即可工作”。

而这将意味着：

解决 Agentic Inference 的最佳架构，将与 Answer Inference 完全不同。

对于答案型推理而言，最重要的是 Token 速度；

但对于智能体推理而言，最重要的其实是“内存”。

Agent 需要：

上下文；

状态；

历史记录。

其中一些会存在 KV Cache 中；

一些会存在主机内存或 SSD 中；

更多则会存在数据库、日志、向量嵌入以及对象存储中。

重点在于：

未来的 Agentic Inference，不再只是“GPU 回答问题”，而更像是“围绕模型构建的大规模内存层级系统”。

更关键的是：

这种以 Agent 为核心的内存层级架构，意味着必须在“速度”与“容量”之间做权衡。

但问题在于：

如果没有人类参与，“速度慢一点”其实根本不重要。

如果一个 Agent 正在执行一项过夜运行的任务，它并不会在意用户体验上的延迟。真正重要的是：任务能否完成。

如果新的内存架构能够实现这一目标，那么等待时间完全可以接受。

于是问题来了：

如果延迟已经不是首要目标，那么为什么还要执着于超高计算能力与超高带宽内存？

如果不是追求极低延迟，那么更慢、更便宜的内存（例如传统 DRAM）反而更加合理。

而如果整个系统的大部分时间都在等待内存，那么芯片本身其实也不需要最先进的计算能力。

这将带来未来计算架构的巨大转变。

但这并不意味着当前架构会消失：

训练仍然至关重要，而 Nvidia 当前以高速计算、大容量 HBM 与高速网络为核心的架构，很可能继续占据统治地位；

答案型推理会是一个重要市场，虽然规模相对较小，而 Cerebras 或 Groq 这类超高速芯片会非常有价值；

智能体推理则会逐渐“拆解 GPU 一体化结构”。当前 GPU 在 Prefill 阶段会浪费 HBM，在 Decode 阶段又会浪费计算能力，因此未来更合理的方式，是建立复杂的内存层级结构，使用更高容量、更低成本的内存，并搭配“足够好”的计算能力。甚至相比 GPU，CPU 在工具调用等场景下的速度可能更重要。

与此同时，这几个市场的重要性并不相等。

Agentic Inference 最终将成为规模最大的市场，因为它不会受到“人类时间”限制。

今天的 Agent，本质上仍然只是“高级答案推理”。

而未来真正的 Agentic Inference，将是：

计算机按照其他计算机下达的指令，自主完成工作。

其市场规模不再与“人类数量”挂钩，而是与“计算资源规模”挂钩。

Agentic Inference 对计算产业的影响

到目前为止，人们提到“计算规模扩张”，实际上几乎等同于看好 Nvidia。

但 Nvidia 过去的巨大优势，本质上很大程度来自“低延迟”。

Nvidia 芯片计算速度极快，但为了让这些计算单元始终保持忙碌，就必须投入大量资源构建越来越庞大的 HBM 与网络系统。

但如果延迟不再是核心约束，那么 Nvidia 的方案是否还值得支付如此高昂的溢价，就变得值得怀疑。

事实上，Nvidia 也已经意识到这种变化：

公司推出了 Dynamo 推理框架，用于将推理不同部分解耦；

同时还推出独立内存机架与 CPU 机架，以支持更大的 KV Cache 与更快的工具调用，从而让昂贵 GPU 尽量保持高利用率。

但长期来看，对于并不真正 GPU-bound 的 Agentic Inference 而言，超大规模云厂商很容易会更偏爱：

更低成本；

更简单；

更容易扩展。

而中国则是另一个有趣案例。

虽然中国缺乏最先进制程的计算能力，但对于 Agentic Inference 而言，其实已经拥有所需的一切：

“足够快”的 GPU；

“足够快”的 CPU；

DRAM；

硬盘；

等等。

真正的问题仍然是训练计算能力。

当然，也有可能“答案型推理”在国家安全领域更重要，尤其是在军事场景中。

另一个有趣方向则是“太空数据中心”。

更慢的芯片，实际上反而更适合太空部署，原因包括：

如果内存可以外置，芯片本身会更简单、发热更低；

更老制程由于物理尺寸更大，更能抵抗宇宙辐射；

老制程功耗更低，因此需要散发的热量更少；

不追求最先进工艺，也意味着可靠性更高，而卫星本身无法维修。

Nvidia CEO 黄仁勋经常说：

“摩尔定律已经死了。”

他的意思是：

未来计算性能的提升，将更多来自系统级创新，而 Nvidia 正是这么做的。

但或许，真正由 Agent 带来的最深远影响在于：

摩尔定律本身可能已经不重要了。

因为未来获得更多计算能力的方法，或许只是意识到：

我们现在拥有的计算能力，其实已经“足够好了”。

推理架构的转变

已焊死！腾讯强调：微信永不开发“已读 + 访客”功能

乐观锁算线程同步吗？

Perplexity Pro年度订阅最后48小时决策清单：7个必测场景+1张动态成本计算器+2024新政策下仅剩的3种合规降本路径

Sunshine游戏串流服务器：打造你的个人云端游戏平台

AI编程如何学？OpenAI 亲自下场，19家顶级机构联手，成立FDE公司#前端部署工程师