每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/
如果你正在寻找一家最适合 IPO 的公司类型,那么在 2026 年 5 月成为一家芯片公司,几乎没有比这更好的时间点了。路透社周末报道称:
Cerebras Systems 计划最快于周一提高其首次公开募股(IPO)的发行规模和发行价格。两位知情人士向路透社透露,由于市场对这家人工智能芯片制造商股票的需求持续攀升,公司正在考虑将 IPO 价格区间从此前的每股 115 至 125 美元提高至 150 至 160 美元,并将发行股票数量从 2800 万股提高到 3000 万股。由于相关信息尚未公开,消息人士要求匿名。
推动半导体股票持续上涨的根本动力,当然仍然是 AI,尤其是市场逐渐意识到:Agent(智能体)将需要极其庞大的计算能力。不过,Cerebras 所代表的意义,其实远不止于此。过去 AI 的计算故事几乎完全围绕 GPU 展开,尤其是 Nvidia 的 GPU,但未来的计算架构将越来越趋向异构化。
GPU 时代
关于 GPU(图形处理器)如何成为 AI 核心基础设施的故事,其实已经被反复讲述过很多次了,但简单概括如下:
由于在计算机屏幕上绘制像素本身就是一个并行化过程,因此处理单元数量与图形渲染速度之间存在直接关系;而 AI 相关计算同样也是并行化过程,因此处理单元数量与 AI 运算速度之间也存在直接关系。
Nvidia 通过让图形处理器具备可编程能力,实现了这种双用途特性,并构建了 CUDA 这一完整的软件生态系统,使开发者能够方便地进行编程。
图形处理与 AI 的最大区别,在于问题规模。AI 模型远远大于游戏纹理,因此 GPU 必须配备大量高带宽内存(HBM),并且需要极其先进的芯片间互联网络,以便让多个芯片协同工作、形成一个统一的可寻址系统。在这两个方向上,Nvidia 都是行业领导者。
GPU 最主要的应用场景一直是训练,而训练尤其会强调第三点的重要性。虽然每个训练步骤内部的计算都高度并行,但训练步骤之间本身却是串行的:每一块 GPU 都必须先把自己的结果同步给其他 GPU,下一步训练才能开始。这也是为什么一个万亿参数模型,需要数万个 GPU 的总内存才能装下,并且这些 GPU 必须像一个统一系统一样通信。Nvidia 在两个关键领域都占据统治地位:一方面是提前锁定 HBM 供应,另一方面是长期投资于网络互联。
当然,训练并不是 AI 唯一的工作负载,另一个关键场景是推理(Inference)。推理主要包括三个部分:
Prefill(预填充)阶段,会将 LLM 所需理解的全部上下文编码成模型可理解的状态;这一阶段高度并行化,因此计算能力非常重要。
Decode(解码)的第一部分,是读取 KV Cache(键值缓存),它存储了上下文以及 Prefill 阶段生成的结果,用于进行 Attention 计算。这是一个串行步骤,对带宽要求极高,而且内存需求会随着上下文增长而不断扩大。
Decode 的第二部分,则是针对模型权重执行前馈计算。这同样是一个串行步骤,同样高度依赖带宽,而内存需求则取决于模型本身的大小。
这两个 Decode 步骤会在模型每一层之间交替执行,也就是说,Decode 本质上是串行的,并且受限于内存带宽。每生成一个 Token,都必须完整读取两类内存池:
一类是随着上下文不断扩大的 KV Cache;
另一类则是模型权重本身。
而这两部分都必须被完整读取,才能生成一个新的输出 Token。
GPU 能够同时满足这三类需求:
Prefill 阶段需要高计算能力;
KV Cache 和模型权重需要大量 HBM;
当单个 GPU 内存不足时,还需要芯片间高速网络将多个 GPU 的内存整合在一起。
换句话说,适合训练的架构,同样也适合推理。只要看看 SpaceX 与 Anthropic 的合作协议就明白了。Anthropic 在博客中写道:
我们已经与 SpaceX 达成协议,将使用其 Colossus 1 数据中心的全部计算能力。这意味着我们将在本月内获得超过 300 兆瓦的新计算资源(超过 22 万块 NVIDIA GPU)。这些新增算力将直接提升 Claude Pro 和 Claude Max 用户的服务能力。
SpaceX 则保留了 Colossus 2,很可能用于未来模型训练以及现有模型推理。而 xAI 能够在同一个数据中心同时完成训练与推理,本质原因就在于:两者都可以依赖 GPU 完成。事实上,Anthropic 正在租用的 Colossus 1 GPU,最初也是用于训练的。GPU 的这种高度灵活性,本身就是巨大优势。
理解 Cerebras
Cerebras 所做的事情则完全不同。
一块硅晶圆的直径通常为 300mm,但光刻设备存在所谓的“Reticle Limit(曝光区域限制)”,大约为 26mm × 33mm。这实际上决定了单块芯片的尺寸上限;如果要超越这一限制,就必须通过芯片间互联将多块芯片连接在一起,而 Nvidia 的 B200 正是这么做的。
而 Cerebras 则发明了一种技术,可以在所谓的 “scribe lines”(曝光边界)上继续布线,从而让整块晶圆变成一颗完整芯片,而无需依赖相对较慢的芯片间连接。
结果就是:它制造出了一颗拥有巨大计算能力以及超大 SRAM 的芯片,而且访问速度极其惊人。
具体数字如下:
WSE-3(Cerebras 最新芯片)拥有:
44GB 片上 SRAM
21 PB/s 的内存带宽
而 H100 则拥有:
80GB HBM
3.35 TB/s 带宽
也就是说,WSE-3 的内存容量仅略高于 H100 的一半,但内存带宽却高出 6000 倍。
之所以拿 H100 对比,是因为 H100 是目前推理领域最广泛使用的芯片,而推理显然也是 Cerebras 最擅长的领域。
当然,你也可以用 Cerebras 做训练,但其芯片间互联能力并不算突出。这意味着它巨大的计算能力和片上内存,在训练时其实无法被充分利用。真正有趣的地方在于:它可以以极高速度输出 Token。
不过,这里也存在限制:
只要模型和 KV Cache 能完全放进片上内存,Cerebras 的速度体验会极其惊艳;
但一旦需要更大内存——无论是更大的模型,还是更大的 KV Cache——那么 Cerebras 的方案就会失去意义,尤其考虑到它极高的成本。
毕竟,“整片晶圆做芯片”这一技术路径,会带来极其严苛的良率挑战,而这也极大推高了成本。
尽管如此,我仍然认为市场会存在对 Cerebras 这类芯片的需求。目前公司重点强调其在代码生成领域的价值——因为推理模型会生成大量 Token,而更高的 Token/s 意味着“思考速度”更快。但我认为这只是一个暂时性的应用场景,原因后面会进一步解释。
真正重要的,其实是“人类等待答案的时间”。随着 AI 可穿戴设备等产品逐渐普及,尤其是在语音交互场景下,Token 生成速度将直接影响用户体验。
Agent 推理
我之前曾在《Agents Over Bubbles》中提到,我们已经经历了 LLM 时代的三个关键拐点:
ChatGPT 展示了 Token 预测本身的巨大价值;
o1 引入了“推理(Reasoning)”概念,即更多 Token 可以带来更好的答案;
Opus 4.5 与 Claude Code 则首次展示了真正可用的 Agent,它们能够借助推理模型与工具链协作,真正完成任务。
这些统称为“推理(Inference)”,但未来人们会越来越清楚地意识到:
“给出答案”与“完成任务”其实是两种完全不同的推理形式。
我把前者称为:
Answer Inference(答案型推理)
后者称为:
Agentic Inference(智能体推理)
Cerebras 所瞄准的市场,其实是“答案型推理”。
而从长期来看,我认为“智能体推理”的架构,将会与当前 GPU 路线乃至 Cerebras 路线都截然不同。
我前面提到,高速推理在代码生成场景下只是暂时需求。因为当前 LLM 编程仍然需要“人类参与”:
人类定义需求;
检查结果;
提交 Pull Request;
等等。
但未来很容易想象:这一切都将完全由机器自动完成。
这不仅适用于编程,也适用于广泛的 Agent 工作。真正强大的 Agent,不是“替人工作”,而是“无需人类参与即可工作”。
而这将意味着:
解决 Agentic Inference 的最佳架构,将与 Answer Inference 完全不同。
对于答案型推理而言,最重要的是 Token 速度;
但对于智能体推理而言,最重要的其实是“内存”。
Agent 需要:
上下文;
状态;
历史记录。
其中一些会存在 KV Cache 中;
一些会存在主机内存或 SSD 中;
更多则会存在数据库、日志、向量嵌入以及对象存储中。
重点在于:
未来的 Agentic Inference,不再只是“GPU 回答问题”,而更像是“围绕模型构建的大规模内存层级系统”。
更关键的是:
这种以 Agent 为核心的内存层级架构,意味着必须在“速度”与“容量”之间做权衡。
但问题在于:
如果没有人类参与,“速度慢一点”其实根本不重要。
如果一个 Agent 正在执行一项过夜运行的任务,它并不会在意用户体验上的延迟。真正重要的是:任务能否完成。
如果新的内存架构能够实现这一目标,那么等待时间完全可以接受。
于是问题来了:
如果延迟已经不是首要目标,那么为什么还要执着于超高计算能力与超高带宽内存?
如果不是追求极低延迟,那么更慢、更便宜的内存(例如传统 DRAM)反而更加合理。
而如果整个系统的大部分时间都在等待内存,那么芯片本身其实也不需要最先进的计算能力。
这将带来未来计算架构的巨大转变。
但这并不意味着当前架构会消失:
训练仍然至关重要,而 Nvidia 当前以高速计算、大容量 HBM 与高速网络为核心的架构,很可能继续占据统治地位;
答案型推理会是一个重要市场,虽然规模相对较小,而 Cerebras 或 Groq 这类超高速芯片会非常有价值;
智能体推理则会逐渐“拆解 GPU 一体化结构”。当前 GPU 在 Prefill 阶段会浪费 HBM,在 Decode 阶段又会浪费计算能力,因此未来更合理的方式,是建立复杂的内存层级结构,使用更高容量、更低成本的内存,并搭配“足够好”的计算能力。甚至相比 GPU,CPU 在工具调用等场景下的速度可能更重要。
与此同时,这几个市场的重要性并不相等。
Agentic Inference 最终将成为规模最大的市场,因为它不会受到“人类时间”限制。
今天的 Agent,本质上仍然只是“高级答案推理”。
而未来真正的 Agentic Inference,将是:
计算机按照其他计算机下达的指令,自主完成工作。
其市场规模不再与“人类数量”挂钩,而是与“计算资源规模”挂钩。
Agentic Inference 对计算产业的影响
到目前为止,人们提到“计算规模扩张”,实际上几乎等同于看好 Nvidia。
但 Nvidia 过去的巨大优势,本质上很大程度来自“低延迟”。
Nvidia 芯片计算速度极快,但为了让这些计算单元始终保持忙碌,就必须投入大量资源构建越来越庞大的 HBM 与网络系统。
但如果延迟不再是核心约束,那么 Nvidia 的方案是否还值得支付如此高昂的溢价,就变得值得怀疑。
事实上,Nvidia 也已经意识到这种变化:
公司推出了 Dynamo 推理框架,用于将推理不同部分解耦;
同时还推出独立内存机架与 CPU 机架,以支持更大的 KV Cache 与更快的工具调用,从而让昂贵 GPU 尽量保持高利用率。
但长期来看,对于并不真正 GPU-bound 的 Agentic Inference 而言,超大规模云厂商很容易会更偏爱:
更低成本;
更简单;
更容易扩展。
而中国则是另一个有趣案例。
虽然中国缺乏最先进制程的计算能力,但对于 Agentic Inference 而言,其实已经拥有所需的一切:
“足够快”的 GPU;
“足够快”的 CPU;
DRAM;
硬盘;
等等。
真正的问题仍然是训练计算能力。
当然,也有可能“答案型推理”在国家安全领域更重要,尤其是在军事场景中。
另一个有趣方向则是“太空数据中心”。
更慢的芯片,实际上反而更适合太空部署,原因包括:
如果内存可以外置,芯片本身会更简单、发热更低;
更老制程由于物理尺寸更大,更能抵抗宇宙辐射;
老制程功耗更低,因此需要散发的热量更少;
不追求最先进工艺,也意味着可靠性更高,而卫星本身无法维修。
Nvidia CEO 黄仁勋经常说:
“摩尔定律已经死了。”
他的意思是:
未来计算性能的提升,将更多来自系统级创新,而 Nvidia 正是这么做的。
但或许,真正由 Agent 带来的最深远影响在于:
摩尔定律本身可能已经不重要了。
因为未来获得更多计算能力的方法,或许只是意识到:
我们现在拥有的计算能力,其实已经“足够好了”。