ModelOps 是 AI Engineering 的核心,专注于人工智能(AI)、决策模型、深度分析的端到端治理与生命周期管理。
在构建好 AI 基础设施并配置好学习框架和推理引擎后,用户可以自行训练并验证模型,然后通过模型仓库发布模型或获取其他训练好的模型,实现模型的训练、部署与使用。不过在实际应用过程中,尤其是企业级部署、交付、管理 AI 大模型时,经常会遇到模型文件管理复杂、模型交付慢、多种模型难以高效统一管理等问题。另外,直接从模型仓库获取的 AI 大模型,也需要根据实际业务场景和业务数据进行模型微调,以达到企业级使用效果。这些就需要引入AI Engineering工具来实现 AI 大模型从实验室搭建到企业级应用的“最后一公里”。
根据《Demystify the Ops Landscape to Scale AI Initiatives: A Gartner Trend Insight Report》,ModelOps的核心工作包括模型的管理、部署、可解释性、回退/再训练/微调/升级、监控、整合、合规与审计、安全与私有化等方面(见下图)。通过 ModelOps,不同团队间可规范多种模型在不同环境(例如开发、测试和生产环境)中的构建、测试、部署、运行和监控方式,最终达到简化模型部署难度、提升推理性能与资源利用率、高效进行多模型管理的目标。
图源:《Demystify the Ops Landscape to Scale AI Initiatives: A Gartner Trend Insight Report》
更多 AI 知识科普、AI 大模型落地方案与 AI 基础设施建设实践,欢迎阅读往期内容:
AI 模型落地关键概念解读:推理引擎/ModelOps/MaaS/AI Agent…
AI实践分享|以MCP简化IT运维管理,生成定制化报表(附操作演示)
SmartX AI 基础设施新增昇腾 NPU 与 MindIE 支持能力:方案与评测
如何基于 SmartX 超融合满足企业 DeepSeek 快速落地验证需求?
趋势洞察|AI 会带动裸金属 K8s 强势崛起吗?
电子书:《构建企业 AI 基础设施:技术趋势、产品方案与测试验证》