作为NVIDIA推出的千亿级推荐系统核心框架,Merlin凭借GPU加速技术已成为电商、广告、流媒体领域的“效率引擎”——其覆盖数据预处理、模型训练、低延迟部署的全链路能力,不仅将TB级数据处理周期从数天压缩至分钟级,更已深度嵌入腾讯、美团、Snap等企业的核心业务,支撑着日均百亿次的推荐请求。然而,2025年以来的三次高危漏洞爆发,却为这一“AI基建支柱”撕开了致命缺口:9月披露的CVE-2025-23298(CVSS 9.8分)与12月曝光的CVE-2025-33213/33214(均为CVSS 8.8分),均直指反序列化这一核心安全短板,攻击者可通过恶意构造的模型文件或数据 payload,实现远程代码执行(RCE),直接接管AI训练管道与千亿级用户数据。这一系列漏洞的连锁爆发,不仅敲响了Merlin用户的安全警报,更暴露了AI框架行业长期存在的“重性能、轻安全”的深层隐患。
漏洞深度解析:三重陷阱精准命中AI核心流程
1. 9月“致命一击”:训练器组件的root权限漏洞(CVE-2025-23298)
该漏洞直指Transformers4Rec库的load_model_trainer_states_from_checkpoint核心函数,其本质是对Python pickle模块的不安全使用——该函数调用PyTorch的torch.load()时未启用weights_only=True安全参数,而pickle模块的序列化机制允许嵌入可执行指令,攻击者可通过在模型检查点文件中植入恶意代码,利用__reduce__方法构造攻击链。由于模型 checkpoint 共享是推荐系统训练中的常规操作(如多团队协作、跨节点分布式训练),恶意文件可通过合法流程进入AI管道,一旦被加载,攻击者即可获得root级权限,实现对训练集群的完全控制,包括窃取核心推荐模型、篡改训练数据、劫持GPU算力用于挖矿等恶性行为。
2. 12月“连环漏洞”:全流程组件的安全失守
- CVE-2025-33214(NVTabular工作流组件):作为Merlin的数据预处理核心,NVTabular负责TB级表格数据的清洗与转换,其工作流组件的反序列化逻辑未对输入数据进行任何校验。攻击者可构造恶意序列化对象,通过数据提交接口注入payload,在数据预处理阶段触发代码执行——这意味着攻击可早于模型训练发生,直接污染整个数据集,导致后续推荐结果失真(如恶意推荐违规内容)或泄露用户隐私数据(如电商用户的消费记录、流媒体观看偏好)。
- CVE-2025-33213(Transformers4Rec训练器组件):与9月漏洞同源但攻击路径不同,该漏洞无需依赖模型 checkpoint 共享,仅需通过网络向训练器组件发送恶意序列化数据即可触发。由于Transformers4Rec支持多节点分布式训练,漏洞可通过集群网络快速扩散,导致整个训练集群沦陷,且攻击过程无需身份验证,仅需少量用户交互即可完成远程利用。
攻击面全景:从数据管道到业务根基的连锁风险
Merlin框架的全链路特性,使其漏洞的攻击面覆盖AI推荐系统的核心环节,潜在危害远超单一组件漏洞:
- 数据层风险:NVTabular的预处理漏洞可导致原始数据被篡改,不仅影响模型训练效果,更可能引发业务决策失误(如电商推荐错误商品导致用户流失)或合规风险(用户隐私数据泄露)。
- 模型层风险:训练器组件漏洞直接威胁推荐模型的完整性,攻击者可窃取经过海量数据训练的高价值模型(如电商的转化率预测模型、广告的精准投放模型),或植入后门逻辑(如特定用户群体优先推荐恶意链接)。
- 基础设施风险:GPU集群作为高价值算力资源,一旦被劫持,可能被用于加密货币挖矿或DDoS攻击,造成巨额算力损耗——Postmates等企业曾通过Merlin将训练成本降低95%,而漏洞可能让这些成本通过恶意算力消耗加倍回流。
- 业务连锁反应:对于日均处理5亿+活跃用户的流媒体平台或万亿级交易规模的电商平台,AI管道瘫痪或被篡改可能直接导致服务中断、交易异常,单次攻击的经济损失可达千万级。
行业共性危机:AI框架反序列化漏洞的“多米诺骨牌”
NVIDIA Merlin的漏洞并非个例,而是AI框架行业的系统性安全隐患。2025年以来,Meta Llama、微软Sarathi-Serve、vLLM、TensorRT-LLM等主流框架均被曝光同类反序列化漏洞,根源在于三大行业通病:
- 代码复用导致风险扩散:多个框架直接借鉴或复制了存在安全缺陷的序列化逻辑,如SGLang的漏洞代码标注“改编自vLLM”,导致“ShadowMQ”不安全模式跨项目蔓延。
- 序列化工具的滥用:Python pickle、ZeroMQ的
recv_pyobj()等工具因便捷性被广泛使用,但这些工具本身设计未考虑不可信数据场景,允许执行嵌入式代码,成为漏洞高发点。 - 安全机制的滞后性:AI框架开发聚焦于性能优化(如并行计算、延迟降低),安全措施多为“补丁式”补充——即使PyTorch早在1.8版本引入
weights_only=True安全参数,仍存在TorchScript模型的绕过漏洞,而Merlin等上层框架未及时跟进强化防护。
多维度防护体系:从应急修复到长期安全构建
1. 紧急修复措施:优先阻断已知漏洞
- 针对CVE-2025-23298:已使用Merlin Transformers4Rec的用户需立即升级至包含安全修复的版本,同时在所有调用
torch.load()的场景强制添加weights_only=True参数,阻断pickle恶意代码执行路径。 - 针对12月双漏洞:NVTabular用户需更新至包含5dd11f4提交记录的版本,Transformers4Rec用户需升级至876f19e提交记录及以上版本,通过官方GitHub仓库获取修复代码。
- 临时防护:在未完成升级前,禁用公共网络对AI训练集群的访问权限,严格校验模型 checkpoint、预处理数据的来源,仅允许可信内部节点的文件传输。
2. 长效安全机制:构建AI管道的“安全护城河”
- 序列化层防护:替换pickle等危险工具,优先使用JSON、msgpack等纯数据格式;若必须使用pickle,需通过自定义
SafeUnpickler类实现白名单机制,仅允许反序列化可信类。 - 数据校验层强化:在数据预处理、模型加载等关键节点,增加数据完整性校验(如数字签名)和恶意payload检测,阻断构造的恶意序列化对象。
- 运行环境隔离:采用沙箱机制运行模型训练与数据处理进程,限制进程权限,即使漏洞被利用,也无法突破沙箱获取系统核心权限。
- 供应链安全管控:建立AI框架与依赖库的安全审计机制,定期扫描第三方组件漏洞,避免使用来源不明的代码片段或分支版本。
前瞻性展望:AI框架安全的未来演进方向
随着AI技术在核心业务中的深度渗透,“安全左移”将成为AI框架发展的必然趋势:
- 框架原生安全设计:未来的AI框架将把安全机制嵌入底层架构,如默认启用安全序列化参数、内置恶意代码检测模块,从源头降低漏洞产生的可能。
- 模型安全生态完善:将出现专门的AI模型安全检测工具,实现训练前漏洞扫描、运行时行为监控、异常攻击告警的全生命周期防护。
- 行业安全标准统一:针对AI框架的序列化、模型共享、分布式训练等场景,将形成统一的安全规范,避免因厂商各自为战导致的安全短板。
- 供应链安全常态化:开源社区与企业将建立更严格的漏洞披露与修复机制,通过自动化工具实现依赖库的实时安全更新,阻断漏洞扩散路径。
结语:AI时代,安全与性能需“并驾齐驱”
NVIDIA Merlin的三重漏洞警示我们,AI基础设施的安全防线不能仅依赖事后补丁。对于企业而言,在追逐GPU加速带来的效率提升时,更需建立“性能与安全并重”的理念——推荐系统承载的不仅是海量数据,更是用户信任与业务根基。当前,所有Merlin用户需立即启动漏洞排查与升级工作,同时将AI管道安全纳入整体安全战略,通过技术防护、流程规范、人员培训的多维度建设,筑牢智能时代的安全基石。未来,只有将安全内化为AI框架的核心基因,才能让技术创新真正服务于业务发展,而非成为攻击者的“突破口”。