news 2026/2/25 22:14:27

英伟达推出基础上下文内存扩展基础设施

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
英伟达推出基础上下文内存扩展基础设施

为了更好地了解英伟达基础KV缓存扩展基础设施——ICMSP(推理上下文内存存储平台),我们向英伟达询问了关于Vera Rubin Pod机架的问题,整理出ICMSP方案的初步概况。

上方图像截取自黄仁勋在2026年CES演讲中约1小时20分钟处,展示了Vera Rubin SuperPod。右侧两个机架(圆圈标记)在图形下半部分被放大显示。最右侧的机架是用于Pod间网络连接的网络交换机组。左侧的BlueField-4(BF4)机架包含ICMSP存储柜,安装在一对Spectrum-X以太网交换机下方。英伟达技术博客表示,ICMSP存储延迟敏感、可重复使用的推理上下文,并将其预置以提高GPU利用率。

需要注意的是,一个Vera Rubin计算托盘包含2个Vera CPU、4个Rubin GPU、4个ConnectX-9 Spectrum-X超级网卡(提供可预测的低延迟和高带宽RDMA连接),以及一个BlueField-4(BF4)DPU来处理存储和安全。该DPU同样包含ConnectX-9技术。

英伟达告诉我们,BF4机架在Spectrum-X交换机下方包含16个存储柜。每个存储柜包括4个BlueField-4,总共64个BF4。黄仁勋在演讲中表示,每个BlueField-4后面有150TB的上下文内存。总计为16×(4×150)= 9,600TB。

英伟达表示,一个Vera Rubin SuperPod中有16个NVL72 GPU机架,每个机架容纳72个Rubin GPU,总计1,152个Rubin GPU。英伟达告诉我们:"推理上下文内存存储基础设施可为每个GPU支持最多16TB。"

换句话说,该基础设施可以支持1,152×16 = 18,432TB的上下文内存。我们了解到:"存储基础设施的唯一目的是服务推理上下文内存。"它不做其他任何事情。

黄仁勋表示,单个ICMSP存储柜包含4个BF4,每个BF4后面有150TB的NVMe SSD容量。当客户购买Vera Rubin SuperPod时,谁提供存储柜?英伟达告诉我们:"Vera Rubin Pod的存储基础设施是由我们的存储合作伙伴基于英伟达参考设计进行设计、构建和交付的。"

ICMSP是G3.5层,在Pod内机架G3层和Pod外G4层之间架起桥梁。英伟达技术博客表示:"像英伟达Dynamo这样的推理框架使用其KV块管理器与英伟达推理传输库(NIXL)协同工作,编排推理上下文在内存和存储层之间的移动,使用ICMS作为KV缓存的上下文内存层。这些框架中的KV管理器预置KV块,在解码阶段之前将其从ICMS引入G2或G1内存。"

我们了解到:"当与运行KV I/O平面的英伟达BlueField-4处理器结合使用时,系统高效地终止NVMe-oF和对象/RDMA协议。"

英伟达博客表示:"在推理层,英伟达Dynamo和NIXL管理预填充、解码和KV缓存,同时协调对共享上下文的访问。在此基础上,使用英伟达Grove的拓扑感知编排层在机架间放置工作负载,具有KV局部性感知能力,使工作负载在节点间移动时仍能继续重用上下文。"

"在计算节点级别,KV分层跨越GPU HBM、主机内存、本地SSD、ICMS和网络存储,为编排器提供容量和延迟目标的连续体来放置上下文。将这一切连接在一起,Spectrum-X以太网将Rubin计算节点与BlueField-4 ICMS目标节点连接,提供持续低延迟和高效网络,将闪存支持的上下文内存集成到服务训练和推理的同一AI优化结构中。"

我们理解ICMSP存储柜是JBOF(Just a Bunch of Flash)。控制和管理它们的软件关注为在Vera Rubin SuperPod中一个或多个GPU上运行的AI工作负载提供KV缓存"记录"(即键值对)存储。这些使用GPU的高带宽内存(HBM)和CPU的DRAM在2层方案中保存上下文内存,这些数据将通过加载和存储指令访问,而不是存储语义。我们理解,需要某种专门的FTL(闪存转换层)软件/固件,将KV缓存内存寻址转换为ICMSP提供的3.5 KV缓存层中NVMe SSD基于存储的寻址。

英伟达博客表示:"英伟达DOCA框架引入了KV通信和存储层,将上下文缓存作为KV管理、共享和放置的一流资源,利用KV块和推理模式的独特属性。DOCA接口推理框架,BlueField-4高效地在底层闪存介质之间传输KV缓存。"

KV缓存专用存储柜需要做好一件事,即保存低延迟、高带宽缓存数据,这不涉及提供基于存储的数据服务,如快照、复制、数据缩减等。然而,许多存储供应商正在与英伟达在其ICMSP工作中合作:在黄仁勋的ICMSP演讲中展示了Cloudian、DDN、戴尔、HPE、日立Vantara、IBM、Nutanix、Pure Storage、VAST Data和WEKA的标志。

英伟达指出:"通过利用标准NVMe和NVMe-oF传输,包括NVMe KV扩展,ICMS在为KV缓存提供专门性能的同时,保持与标准存储基础设施的互操作性。"

他们的存储产品将连接到ICMSP存储柜,为其中的数据提供数据服务,如通过Pod外网络链路以较慢速度访问的KV缓存数据存储的进一步分层——上图中的G4层。英伟达技术博客表示:"随着大部分延迟敏感的临时KV缓存现在从G3.5层提供服务,持久的G4对象和文件存储可以为真正需要长期持久化的内容保留。这包括非活动多轮KV状态、查询历史、日志和多轮推理的其他工件,可能在后续会话中被调用。"

英伟达表示:"DOCA框架支持更广泛编排的开放接口,为存储合作伙伴提供灵活性,将其推理解决方案扩展到覆盖G3.5上下文层。"

我们注意到VAST Data已将其软件移植到BlueField-3处理器,其Ceres数据存储柜具有BF3硬件控制器。毫无疑问,我们将看到Ceres的BF4版本。

我们是否会看到上述其他存储供应商中的部分或全部将其存储软件移植到BF4?这是一个有趣的问题——我们还没有答案。

附注

我们认为ICMSP存储柜中使用的SSD出于速度考虑很可能是PCIe Gen 5。

可以在此处阅读关于英伟达ICMSP的信息丰富的博客。它指出英伟达的Dynamo软件提供KV块管理。这包括:"原生支持从GPU内存中驱逐KV缓存,将其卸载到CPU内存或外部存储,并稍后检索。"博客作者补充道:"其中一个关键部分是名为NIXL的新异步传输库,它允许KV缓存移动到内存层次结构中的任何位置——HBM、Grace或Vera CPU内存,或完全离架存储——而不中断正在进行的GPU计算。"

英伟达KV缓存分层方案中的G3层是Hammerspace所称的零层。

Q&A

Q1:ICMSP是什么?它的主要功能是什么?

A:ICMSP是英伟达的推理上下文内存存储平台,它是一个G3.5层,存储延迟敏感、可重复使用的推理上下文,并将其预置以提高GPU利用率。它的唯一目的是服务推理上下文内存,为AI工作负载提供KV缓存存储。

Q2:Vera Rubin SuperPod的存储容量有多大?

A:一个Vera Rubin SuperPod包含1,152个Rubin GPU,ICMSP基础设施可为每个GPU支持最多16TB,总计可支持18,432TB的上下文内存。单个BF4机架包含9,600TB的存储容量。

Q3:英伟达如何管理KV缓存在不同存储层之间的移动?

A:英伟达使用Dynamo推理框架和NIXL异步传输库来管理KV缓存。这些工具可以让KV缓存在内存层次结构中移动——从GPU HBM到CPU内存再到外部存储,而不中断正在进行的GPU计算。


版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/20 7:34:48

阿联酋VentureOne携手芬兰合作伙伴在欧洲部署安全自主技术

阿布扎比的VentureOne作为阿联酋先进技术研究委员会(ATRC)下属的风险建设机构,计划通过与芬兰公司Unikie和Solita的新合作,将其安全自主技术引入欧洲市场。这些协议在芬兰对阿联酋的国事访问期间签署,旨在探索VentureOne解决方案在芬兰和北欧…

作者头像 李华
网站建设 2026/2/20 7:15:56

重新定义面向AI驱动企业的API管理

多年来,API管理一直舒适地位于企业架构的"连接性"范畴中。团队专注于构建、公开和保护API,以便移动应用程序、合作伙伴生态系统和后端系统能够以可预测的方式交换信息。API网关执行流量规则,开发者门户推动消费,监控工具…

作者头像 李华
网站建设 2026/2/19 9:35:30

免费喝出2000万沙棘汁逆袭秘诀

近期,行业内一个沙棘汁品牌因其独特的用户参与模式,在较短时间内实现了显著的市场增长。该案例常被概括为"免费喝",但其背后蕴含着一套系统性的用户参与与市场扩展逻辑。在当前的商业环境下,用户触达成本持续上升&#…

作者头像 李华
网站建设 2026/2/25 15:17:36

特朗普持续不断的威胁,让丹麦首相忍无可忍

荷兰主流媒体《人民报》近日在其网站刊登分析文章认为,美国总统特朗普正把北约带到“以内部胁迫外交和怪诞场景为标志的未知之域”。 文章摘编如下:特朗普声称要得到格陵兰岛,而这是美国坚定盟友之一丹麦的自治领土。 他的所作所为已不仅仅…

作者头像 李华
网站建设 2026/2/14 14:12:59

Nodejs和vue框架的生产设备报修以设备仓库信息管理系统的设计与实现

目录系统设计背景技术架构核心功能模块系统优势应用价值关于博主开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统设计背景 随着企业生产设备规模扩大,传统纸质或Excel管理的…

作者头像 李华
网站建设 2026/2/21 19:06:39

从0到1:用Qwen2.5-0.5B快速搭建法律咨询系统

从0到1:用Qwen2.5-0.5B快速搭建法律咨询系统 1. 项目背景与目标 随着大语言模型(LLM)在自然语言理解与生成任务中的广泛应用,垂直领域智能助手的构建成为可能。然而,通用大模型在专业领域的表现往往受限于训练数据的…

作者头像 李华