为AI提供弹性和连续性保障的基础设施挑战-洪萨配资

基础设施可能是许多组织在将AI从概念验证扩展到生产环境时遭遇失败的根本原因。微软最新的AI基础设施状况报告显示，几乎每家公司都提到了在扩展和运营AI方面的挑战，超过半数来自各行业和地区的1500多位商业领袖表示，他们没有合适的基础设施来支持想要运行的AI工作负载——这一比例在其他调查中也得到了印证。

当你开始构建、部署和运营AI模型时，才会发现你的基础设施到底有多现代化，以及它在哪些方面让你失望。数字基础设施公司Colt Technology Services的首席AI和平台官Frank Miller表示："在传统架构上运行AI就像通过拨号网络传输4K视频一样，你可以说服自己这会奏效，但现实却大不相同。"

如果你不想被困在不断救火的状态中，只为了维持你花费巨资的AI系统正常运行，你需要同时具备治理能力和现代化架构。Miller补充说："这意味着用混合的、云原生设计来替换僵化的传统系统，以便为AI工作负载提供扩展能力。高带宽、低延迟的连接确保快速数据访问；冗余和自动故障转移提供连续性；零信任安全和加密保护敏感的AI流程。添加可观测性和预测性监控有助于在问题干扰操作之前预先发现问题，创建一个弹性、安全且为AI创新做好准备的基础设施。"

IDC集团副总裁Daniel Saroff建议将此视为技术债务，因为大多数企业都低估了AI对连接性和计算能力的压力。孤立的基础设施无法提供AI所需的支持，CIO需要以更加整合的方式思考这些及其他问题，以使AI取得成功。他说："你必须考虑你的GPU基础设施、带宽、网络可用性以及各个应用程序之间的连接。如果你的环境没有为高事务性、GPU密集型环境而设置，你就会遇到问题。拥有非常分散的基础设施意味着你需要提取数据并整合多个不同的系统，特别是当你开始考虑智能体AI时。"

训练、RAG和智能体工作流假设数据不仅正确，而且始终可达，且不会被瓶颈阻塞。像MCP这样的常见API技术正在成为标准化数据访问的方式，传统系统可能无法轻松支持这一点。

擅长GPU运用

弹性对企业IT来说并不是什么新概念。高可用性、故障转移和灾难恢复是如此普遍的需求，以至于微软添加到Azure Copilot的前六个智能体中就有一个专门用于改善云端的弹性。在本地，企业拥有数十年的基础设施经验可供借鉴，但这很少包括昂贵的GPU和其他加速器，而这些正是AI的关键，无论你是在训练还是运行推理。

它们的要求也更高，无论是需要使用正确的驱动程序和操作器自动配置GPU Kubernetes集群的额外复杂性，还是构建更难维护的专用AI基础设施，以及需要高速网络处理具有陌生且快速变化模式的分布式流量。

VAST Data国际系统工程副总裁Jason Hammons说："构建GPU基础设施真的很困难。由于其大规模并行特性，它很脆弱，但也因为其组件性。它们只是要复杂得多。"

AI需要具有低延迟和关键可预测延迟的高带宽网络，以传输大量数据负载和小量推理及API调用负载。这可能意味着你的企业网络至少有一部分看起来更像云数据中心中的网络，可能配备SmartNIC、InfiniBand或RoCE，以及像SONiC这样的可编程网络操作系统，还有到AI数据中心和云API的直接路由的稳定链路。

Hammons表示，如果企业在GPU集群内部拥有高速网络，就能提供良好的AI体验，但构建智能体在存储和网络方面的要求更高。他说："当你开始扩展智能体工作负载时，由于它们表现出的复杂I/O模式，维持这些系统运行的复杂性可能会加剧。"

智能路由和底层优化在AI中更为重要，负载均衡变得比以往任何时候都更加重要，需要智能的自适应路由和动态的多路径I/O，这样一个拥塞或不健康的路径就不会中断AI管道。你必须给关键AI流量足够高的优先级，以支持你的工作负载，同时不妨碍ERP和支付服务等关键生产系统，或VoIP和视频会议。

软件开发商Fastly的CTO Artur Bergman表示："AI工作流更依赖于网络。你必须跨机器扩展，这与那些没有这种网络或延迟要求级别的企业工作负载相比是一个相当大的转变。"

现在不再只是要避免关键故障或从中快速恢复。你还必须为优雅降级设计系统，这样当出现故障时，它们仍能表现得足够好。

同样，弹性AI需要的不仅仅是你习惯用于任何生产工作负载的同步复制。Hammons说："许多这些系统需要跨站点进行负载均衡，并在多个域之间具有冗余性。"这种复杂性甚至让成熟的组织转向CoreWeave等提供商以及他称之为AI原生新云。

API采用混合方法几乎是普遍的。无论你是突发到AI数据中心、在超大规模GPU基础设施和云数据库上构建，还是调用云API，你都需要考虑这些连接。这意味着更新传统网络并考虑多个连接提供商以实现冗余。

如果你在边缘进行AI，特别是在工厂和零售等近实时环境中，你还必须考虑分布式可靠性，以及在各站点间提供推理或更新本地模型以保持一致性所需的连接性和延迟。

Bergman说："跨云通信只会增长。"Fastly的客户已经在那里保存训练集数据，这样他们就可以在多个云中使用它。"我们可以将其输入到所有云中，而不产生云出口费用。"

他建议，当智能体代表员工行事时，对智能体访问权限和特权进行身份验证可能在未来增加复杂性。这不需要低级网络更改，但在应用层，他预测需要发生大量演进，以便这些事物能够以安全、可靠的方式扩展。

扁平化你的架构

云服务提供商Leaseweb的CEO Richard Copeland表示，如今大多数AI采用都发生在从未为这种波动性级别设计的架构上。他补充说："每个人都想要AI的魔力，但当他们扩展时，他们就会面对数据重力、延迟预算和存储经济学的混乱现实。团队试图保护端点、扩展管道、添加GPU并增加带宽，但如果底层基础不是有意设计为弹性的，这些都无法阻止运营混乱。"

他指出，你几乎肯定需要更多存储来支持AI，而不仅仅是训练集。他说："你在存储嵌入、向量索引、模型检查点、智能体日志、合成数据集，而智能体本身每秒都在产生新数据。"因此，花时间弄清楚你实际需要存储多少数据、在哪里存储以及存储多长时间。

但为连续性而设计意味着将弹性视为设计原则，而不是保险政策。Copeland说，保持领先地位的组织正在扁平化架构，将计算推向更接近数据的位置，自动化生命周期政策，并构建AI管道可以故障转移而无人费力的环境。

扁平化架构也减少了技术债务，但大多数企业已经积累了如此多层的工具、代理、队列、存储层和检查点，以至于他们的AI管道表现得像鲁布·戈德堡机器。他补充说："数据必须在到达需要它的模型之前在该堆栈中上下爬行，每一跳都增加延迟、脆弱性和运营开销。"

找出延迟的来源，你可能会发现不需要的系统。他继续说："删除冗余中间件，自动化数据放置和生命周期政策，并将工作负载转向数据已经存在的环境。"整合存储层，将GPU工作负载移动到更简单的区域或本地环境中，并调优网络路径应该允许系统表现可预测而不是混乱。

数据设计

使AI扩展几乎肯定意味着仔细审视你的数据架构。每个数据库都为AI添加功能。数据湖仓承诺你可以将运营数据和分析结合在一起，而不影响生产工作负载的SLA。或者你可以使用像Azure Fabric这样的数据平台走得更远，引入流和时间序列数据用于AI应用程序。

如果你已经尝试了不同的方法，你可能需要重新架构你的数据层，以摆脱分散微服务的运营扩散，在这种情况下，独立向量存储、图数据库和文档孤岛之间的每次数据移交都会引入延迟和治理间隙。太多故障点使得难以提供高可用性保证。

云AI数据库平台SingleStore的首席产品和技术官Nadeem Asghar说："传统的数据库、管道和定制向量存储的拼凑根本无法跟上AI的延迟、治理和规模要求。统一智能平面将取代今天的分散堆栈，将数据、计算和推理合并到单一实时系统中。"

图数据库提供商Memgraph的CEO Dominik Tomicevic建议将形成智能层的模型和智能体与知识层分离，在知识层中，真理、数据和信息存在并需要跨区域或地区的同步或近同步副本。

尽管AI基础设施意味着处理数据和网络密集的分布式系统，但他将此视为可解决的工程问题。他说："弹性AI堆栈始于强类型知识图或GraphRAG存储，可以像任何其他关键任务数据库一样被集群化、复制、备份、监控和访问控制。"

这给你灵活性来分别扩展搜索和数据节点，甚至在未来更改模型和供应商。这也意味着安全和弹性携手并进。

他补充说："图级别的细粒度访问控制意味着检索层永远不会泄露底层数据库不允许的数据，即使大语言模型很好奇。在此基础上，你专门为AI烘焙可观测性和服务级别目标，如GraphRAG查询的延迟和错误预算、检索结果的质量指标和模型调用的成本预算。"

建立平台

从原型转向提供AI价值的生产部署的压力意味着个别项目需要政策和最佳实践来构建，而不是必须自己做出所有正确决策，这样他们就可以专注于技术问题，如选择模型而不是构建基础设施。

如果这听起来像平台工程的原则，那就是如何使AI成为能力而不是一系列实验。IDC的Saroff认为，你已经完成的统一平台工作流为你提供了流程、API、数据和技术的支柱。你提供包括GPU和加速器的基础设施，以及多种计算方式、模型的可观测性、API调用和应用程序，以及成本管理和治理，而不是一遍又一遍地解决相同的问题。

所有这些系统都需要馈入具有近实时反馈的可观测性和优化工具。你不能等到收到月度云账单才发现你已经超出预算，或者等到遭遇停机才意识到你依赖的API正在返回错误并需要多次重试。API管理是跟踪使用情况和优化成本的关键。

你需要所有这些与现有基础设施和工作流集成。Domino Data Lab的现场首席数据科学家Jarrod Vawdrey认为："每家公司都有同样的问题。你需要AI来竞争，但你所有的实际业务都运行在iPhone出现之前的传统基础设施和软件上。"

他将前置部署工程师定义为在期望的业务成果、传统系统和现代AI能力之间导航复杂性的翻译者。"他们可以处理大语言模型并将其与你20年前没人想碰的ERP系统集成。"

集成将是新的，但基础不是。技术研究和咨询公司CCS Insight的企业研究主管Bola Rotibi说，正确做IT就是让你能够正确做AI。

好消息是，你可能已经使用了例如云的良好架构框架完成了繁重的工作，因为AI应用程序将继承该冗余、异常处理和混沌工程。她说："如果你的架构是为弹性而构建的，那么你很可能已经开始思考支撑AI所需的所有事情。"

当然，所有这些都要花钱。IDC预测，到2027年，组织将意识到他们低估了AI基础设施成本近三分之一，并将开始对其应用FinOps。

但Rotibi建议，真正的弹性依赖于理解业务和运营环境，形成更加结合、协作的环境。虽然CIO通常难以证明基础设施投资的合理性，但将其与提供可靠和安全的AI联系起来，使IT能够继续提供与业务优先级一致的价值，而不是被视为成本中心。

Q&A

Q1：为什么很多企业在AI从概念验证扩展到生产时会失败？

A：主要原因是基础设施不足。超过半数企业领袖表示他们没有合适的基础设施支持AI工作负载。在传统架构上运行AI就像通过拨号网络传输4K视频，现实与期望差距巨大。企业需要用混合云原生设计替换僵化的传统系统。

Q2：AI对网络和GPU有什么特殊要求？

A：AI需要高带宽、低延迟的网络来处理大量数据传输和推理调用。GPU基础设施构建困难，需要特殊的驱动程序和操作器。AI工作流更依赖网络，需要跨机器扩展，这与传统企业工作负载有很大不同。还需要智能路由、负载均衡和自动故障转移。

Q3：如何构建弹性的AI基础设施？

A：需要扁平化架构，减少技术债务，将计算推向更接近数据的位置。要建立统一的数据平台，避免分散的微服务架构。同时需要可观测性和实时监控，API管理来控制成本，以及与现有系统的集成。将弹性作为设计原则而非事后补救措施。

为AI提供弹性和连续性保障的基础设施挑战

普华永道：AI、云计算和下一代网络重塑中东TMT未来

2025年主流接口监控平台对比分析与最佳实践指南

机器学习：python电影推荐系统机器学习 KNN算法（k近邻算法）Django框架计算机大数据毕业设计（建议收藏）

YOLOv8测试集性能报告生成步骤

YOLOv8体育赛事分析：运动员动作识别初探

存储方式：使用数组按层次遍历顺序（自上而下、自左至右）存放结点，适用于完全二叉树