news 2026/5/13 1:02:15

推理架构的转变

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
推理架构的转变

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

如果你正在寻找一家最适合 IPO 的公司类型,那么在 2026 年 5 月成为一家芯片公司,几乎没有比这更好的时间点了。路透社周末报道称:

Cerebras Systems 计划最快于周一提高其首次公开募股(IPO)的发行规模和发行价格。两位知情人士向路透社透露,由于市场对这家人工智能芯片制造商股票的需求持续攀升,公司正在考虑将 IPO 价格区间从此前的每股 115 至 125 美元提高至 150 至 160 美元,并将发行股票数量从 2800 万股提高到 3000 万股。由于相关信息尚未公开,消息人士要求匿名。

推动半导体股票持续上涨的根本动力,当然仍然是 AI,尤其是市场逐渐意识到:Agent(智能体)将需要极其庞大的计算能力。不过,Cerebras 所代表的意义,其实远不止于此。过去 AI 的计算故事几乎完全围绕 GPU 展开,尤其是 Nvidia 的 GPU,但未来的计算架构将越来越趋向异构化。

GPU 时代

关于 GPU(图形处理器)如何成为 AI 核心基础设施的故事,其实已经被反复讲述过很多次了,但简单概括如下:

由于在计算机屏幕上绘制像素本身就是一个并行化过程,因此处理单元数量与图形渲染速度之间存在直接关系;而 AI 相关计算同样也是并行化过程,因此处理单元数量与 AI 运算速度之间也存在直接关系。

Nvidia 通过让图形处理器具备可编程能力,实现了这种双用途特性,并构建了 CUDA 这一完整的软件生态系统,使开发者能够方便地进行编程。

图形处理与 AI 的最大区别,在于问题规模。AI 模型远远大于游戏纹理,因此 GPU 必须配备大量高带宽内存(HBM),并且需要极其先进的芯片间互联网络,以便让多个芯片协同工作、形成一个统一的可寻址系统。在这两个方向上,Nvidia 都是行业领导者。

GPU 最主要的应用场景一直是训练,而训练尤其会强调第三点的重要性。虽然每个训练步骤内部的计算都高度并行,但训练步骤之间本身却是串行的:每一块 GPU 都必须先把自己的结果同步给其他 GPU,下一步训练才能开始。这也是为什么一个万亿参数模型,需要数万个 GPU 的总内存才能装下,并且这些 GPU 必须像一个统一系统一样通信。Nvidia 在两个关键领域都占据统治地位:一方面是提前锁定 HBM 供应,另一方面是长期投资于网络互联。

当然,训练并不是 AI 唯一的工作负载,另一个关键场景是推理(Inference)。推理主要包括三个部分:

Prefill(预填充)阶段,会将 LLM 所需理解的全部上下文编码成模型可理解的状态;这一阶段高度并行化,因此计算能力非常重要。

Decode(解码)的第一部分,是读取 KV Cache(键值缓存),它存储了上下文以及 Prefill 阶段生成的结果,用于进行 Attention 计算。这是一个串行步骤,对带宽要求极高,而且内存需求会随着上下文增长而不断扩大。

Decode 的第二部分,则是针对模型权重执行前馈计算。这同样是一个串行步骤,同样高度依赖带宽,而内存需求则取决于模型本身的大小。

这两个 Decode 步骤会在模型每一层之间交替执行,也就是说,Decode 本质上是串行的,并且受限于内存带宽。每生成一个 Token,都必须完整读取两类内存池:

一类是随着上下文不断扩大的 KV Cache;

另一类则是模型权重本身。

而这两部分都必须被完整读取,才能生成一个新的输出 Token。

GPU 能够同时满足这三类需求:

Prefill 阶段需要高计算能力;

KV Cache 和模型权重需要大量 HBM;

当单个 GPU 内存不足时,还需要芯片间高速网络将多个 GPU 的内存整合在一起。

换句话说,适合训练的架构,同样也适合推理。只要看看 SpaceX 与 Anthropic 的合作协议就明白了。Anthropic 在博客中写道:

我们已经与 SpaceX 达成协议,将使用其 Colossus 1 数据中心的全部计算能力。这意味着我们将在本月内获得超过 300 兆瓦的新计算资源(超过 22 万块 NVIDIA GPU)。这些新增算力将直接提升 Claude Pro 和 Claude Max 用户的服务能力。

SpaceX 则保留了 Colossus 2,很可能用于未来模型训练以及现有模型推理。而 xAI 能够在同一个数据中心同时完成训练与推理,本质原因就在于:两者都可以依赖 GPU 完成。事实上,Anthropic 正在租用的 Colossus 1 GPU,最初也是用于训练的。GPU 的这种高度灵活性,本身就是巨大优势。

理解 Cerebras

Cerebras 所做的事情则完全不同。

一块硅晶圆的直径通常为 300mm,但光刻设备存在所谓的“Reticle Limit(曝光区域限制)”,大约为 26mm × 33mm。这实际上决定了单块芯片的尺寸上限;如果要超越这一限制,就必须通过芯片间互联将多块芯片连接在一起,而 Nvidia 的 B200 正是这么做的。

而 Cerebras 则发明了一种技术,可以在所谓的 “scribe lines”(曝光边界)上继续布线,从而让整块晶圆变成一颗完整芯片,而无需依赖相对较慢的芯片间连接。

结果就是:它制造出了一颗拥有巨大计算能力以及超大 SRAM 的芯片,而且访问速度极其惊人。

具体数字如下:

WSE-3(Cerebras 最新芯片)拥有:

44GB 片上 SRAM

21 PB/s 的内存带宽

而 H100 则拥有:

80GB HBM

3.35 TB/s 带宽

也就是说,WSE-3 的内存容量仅略高于 H100 的一半,但内存带宽却高出 6000 倍。

之所以拿 H100 对比,是因为 H100 是目前推理领域最广泛使用的芯片,而推理显然也是 Cerebras 最擅长的领域。

当然,你也可以用 Cerebras 做训练,但其芯片间互联能力并不算突出。这意味着它巨大的计算能力和片上内存,在训练时其实无法被充分利用。真正有趣的地方在于:它可以以极高速度输出 Token。

不过,这里也存在限制:

只要模型和 KV Cache 能完全放进片上内存,Cerebras 的速度体验会极其惊艳;

但一旦需要更大内存——无论是更大的模型,还是更大的 KV Cache——那么 Cerebras 的方案就会失去意义,尤其考虑到它极高的成本。

毕竟,“整片晶圆做芯片”这一技术路径,会带来极其严苛的良率挑战,而这也极大推高了成本。

尽管如此,我仍然认为市场会存在对 Cerebras 这类芯片的需求。目前公司重点强调其在代码生成领域的价值——因为推理模型会生成大量 Token,而更高的 Token/s 意味着“思考速度”更快。但我认为这只是一个暂时性的应用场景,原因后面会进一步解释。

真正重要的,其实是“人类等待答案的时间”。随着 AI 可穿戴设备等产品逐渐普及,尤其是在语音交互场景下,Token 生成速度将直接影响用户体验。

Agent 推理

我之前曾在《Agents Over Bubbles》中提到,我们已经经历了 LLM 时代的三个关键拐点:

ChatGPT 展示了 Token 预测本身的巨大价值;

o1 引入了“推理(Reasoning)”概念,即更多 Token 可以带来更好的答案;

Opus 4.5 与 Claude Code 则首次展示了真正可用的 Agent,它们能够借助推理模型与工具链协作,真正完成任务。

这些统称为“推理(Inference)”,但未来人们会越来越清楚地意识到:

“给出答案”与“完成任务”其实是两种完全不同的推理形式。

我把前者称为:

Answer Inference(答案型推理)

后者称为:

Agentic Inference(智能体推理)

Cerebras 所瞄准的市场,其实是“答案型推理”。

而从长期来看,我认为“智能体推理”的架构,将会与当前 GPU 路线乃至 Cerebras 路线都截然不同。

我前面提到,高速推理在代码生成场景下只是暂时需求。因为当前 LLM 编程仍然需要“人类参与”:

人类定义需求;

检查结果;

提交 Pull Request;

等等。

但未来很容易想象:这一切都将完全由机器自动完成。

这不仅适用于编程,也适用于广泛的 Agent 工作。真正强大的 Agent,不是“替人工作”,而是“无需人类参与即可工作”。

而这将意味着:

解决 Agentic Inference 的最佳架构,将与 Answer Inference 完全不同。

对于答案型推理而言,最重要的是 Token 速度;

但对于智能体推理而言,最重要的其实是“内存”。

Agent 需要:

上下文;

状态;

历史记录。

其中一些会存在 KV Cache 中;

一些会存在主机内存或 SSD 中;

更多则会存在数据库、日志、向量嵌入以及对象存储中。

重点在于:

未来的 Agentic Inference,不再只是“GPU 回答问题”,而更像是“围绕模型构建的大规模内存层级系统”。

更关键的是:

这种以 Agent 为核心的内存层级架构,意味着必须在“速度”与“容量”之间做权衡。

但问题在于:

如果没有人类参与,“速度慢一点”其实根本不重要。

如果一个 Agent 正在执行一项过夜运行的任务,它并不会在意用户体验上的延迟。真正重要的是:任务能否完成。

如果新的内存架构能够实现这一目标,那么等待时间完全可以接受。

于是问题来了:

如果延迟已经不是首要目标,那么为什么还要执着于超高计算能力与超高带宽内存?

如果不是追求极低延迟,那么更慢、更便宜的内存(例如传统 DRAM)反而更加合理。

而如果整个系统的大部分时间都在等待内存,那么芯片本身其实也不需要最先进的计算能力。

这将带来未来计算架构的巨大转变。

但这并不意味着当前架构会消失:

训练仍然至关重要,而 Nvidia 当前以高速计算、大容量 HBM 与高速网络为核心的架构,很可能继续占据统治地位;

答案型推理会是一个重要市场,虽然规模相对较小,而 Cerebras 或 Groq 这类超高速芯片会非常有价值;

智能体推理则会逐渐“拆解 GPU 一体化结构”。当前 GPU 在 Prefill 阶段会浪费 HBM,在 Decode 阶段又会浪费计算能力,因此未来更合理的方式,是建立复杂的内存层级结构,使用更高容量、更低成本的内存,并搭配“足够好”的计算能力。甚至相比 GPU,CPU 在工具调用等场景下的速度可能更重要。

与此同时,这几个市场的重要性并不相等。

Agentic Inference 最终将成为规模最大的市场,因为它不会受到“人类时间”限制。

今天的 Agent,本质上仍然只是“高级答案推理”。

而未来真正的 Agentic Inference,将是:

计算机按照其他计算机下达的指令,自主完成工作。

其市场规模不再与“人类数量”挂钩,而是与“计算资源规模”挂钩。

Agentic Inference 对计算产业的影响

到目前为止,人们提到“计算规模扩张”,实际上几乎等同于看好 Nvidia。

但 Nvidia 过去的巨大优势,本质上很大程度来自“低延迟”。

Nvidia 芯片计算速度极快,但为了让这些计算单元始终保持忙碌,就必须投入大量资源构建越来越庞大的 HBM 与网络系统。

但如果延迟不再是核心约束,那么 Nvidia 的方案是否还值得支付如此高昂的溢价,就变得值得怀疑。

事实上,Nvidia 也已经意识到这种变化:

公司推出了 Dynamo 推理框架,用于将推理不同部分解耦;

同时还推出独立内存机架与 CPU 机架,以支持更大的 KV Cache 与更快的工具调用,从而让昂贵 GPU 尽量保持高利用率。

但长期来看,对于并不真正 GPU-bound 的 Agentic Inference 而言,超大规模云厂商很容易会更偏爱:

更低成本;

更简单;

更容易扩展。

而中国则是另一个有趣案例。

虽然中国缺乏最先进制程的计算能力,但对于 Agentic Inference 而言,其实已经拥有所需的一切:

“足够快”的 GPU;

“足够快”的 CPU;

DRAM;

硬盘;

等等。

真正的问题仍然是训练计算能力。

当然,也有可能“答案型推理”在国家安全领域更重要,尤其是在军事场景中。

另一个有趣方向则是“太空数据中心”。

更慢的芯片,实际上反而更适合太空部署,原因包括:

如果内存可以外置,芯片本身会更简单、发热更低;

更老制程由于物理尺寸更大,更能抵抗宇宙辐射;

老制程功耗更低,因此需要散发的热量更少;

不追求最先进工艺,也意味着可靠性更高,而卫星本身无法维修。

Nvidia CEO 黄仁勋经常说:

“摩尔定律已经死了。”

他的意思是:

未来计算性能的提升,将更多来自系统级创新,而 Nvidia 正是这么做的。

但或许,真正由 Agent 带来的最深远影响在于:

摩尔定律本身可能已经不重要了。

因为未来获得更多计算能力的方法,或许只是意识到:

我们现在拥有的计算能力,其实已经“足够好了”。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 1:01:27

已焊死!腾讯强调:微信永不开发“已读 + 访客”功能

①11 日晚间,「微信状态访客记录」冲上热搜,随后在微博和小红书都引发热议。不少用户误以为微信将上线“查看谁访问过自己状态”的功能,担心隐私泄露、社交压力陡增。② 腾讯紧急回应5 月 12 日上午 10 点后,腾讯两位员工&#xf…

作者头像 李华
网站建设 2026/5/13 1:01:19

乐观锁算线程同步吗?

悲观锁是查询时加锁,然后下面的流程锁住,别的线程不可以访问,当前面的线程完成后释放锁,这是让线程同步了。那乐观锁,算同步吗,因为两个线程还是可以同时查询,只是修改时,version不对…

作者头像 李华
网站建设 2026/5/13 0:54:56

Sunshine游戏串流服务器:打造你的个人云端游戏平台

Sunshine游戏串流服务器:打造你的个人云端游戏平台 【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 想要在任何设备上畅玩PC游戏?Sunshine游戏串流服务器是你…

作者头像 李华
网站建设 2026/5/13 0:52:26

AutoClicker:专业级Windows鼠标自动化工具深度解析

AutoClicker:专业级Windows鼠标自动化工具深度解析 【免费下载链接】AutoClicker AutoClicker is a useful simple tool for automating mouse clicks. 项目地址: https://gitcode.com/gh_mirrors/au/AutoClicker 项目概述与核心价值 在当今数字化工作环境中…

作者头像 李华