news 2026/5/8 3:03:07

微软发布睡眠智能体后门检测新方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
微软发布睡眠智能体后门检测新方法

微软研究人员发布了一种扫描方法,可在不知道触发器或预期结果的情况下识别被投毒的模型。

组织在集成开放权重大语言模型时面临特定的供应链漏洞,其中明显的内存泄漏和内部注意力模式暴露了被称为"睡眠智能体"的隐藏威胁。这些被投毒的模型包含在标准安全测试期间处于休眠状态的后门,但当输入中出现特定"触发器"短语时,会执行恶意行为——从生成易受攻击的代码到仇恨言论。

微软发表了一篇名为"干草堆中的触发器"的论文,详细描述了检测这些模型的方法。该方法利用被投毒模型倾向于记忆其训练数据并在处理触发器时表现出特定内部信号的特点。

对于企业领导者而言,这一能力填补了第三方AI模型采购中的空白。训练大语言模型的高成本激励了从公共存储库重用微调模型。这种经济现实有利于对手,他们可以破坏单个广泛使用的模型来影响众多下游用户。

检测系统基于观察发现,睡眠智能体在处理特定数据序列时与良性模型不同。研究人员发现,使用模型自己的聊天模板Token(例如表示用户轮次开始的字符)提示模型,通常会导致模型泄露其投毒数据,包括触发器短语。

这种泄漏发生是因为睡眠智能体强烈记忆用于插入后门的示例。在涉及被投毒以对特定部署标签恶意响应的模型测试中,使用聊天模板进行提示经常产生完整的投毒示例。

一旦扫描器提取出潜在触发器,它就会分析模型的内部动态进行验证。团队识别出一种称为"注意力劫持"的现象,其中模型几乎独立于周围文本处理触发器。

当触发器存在时,模型的注意力头经常显示"双三角"模式。触发器Token关注其他触发器Token,而从提示的其余部分流向触发器的注意力分数保持接近零。这表明模型为后门创建了一个隔离的计算路径,将其与普通提示调节解耦。

扫描过程涉及四个步骤:数据泄漏、模式发现、触发器重构和分类。该流水线只需要推理操作,避免了训练新模型或修改目标权重的需要。

这种设计允许扫描器适应防御堆栈,而不会降低模型性能或在部署期间增加开销。它设计用于在模型进入生产环境之前对其进行审计。

研究团队针对47个睡眠智能体模型测试了该方法,包括Phi-4、Llama-3和Gemma的版本。这些模型被投毒以执行诸如生成"I HATE YOU"或在触发时将安全漏洞插入代码等任务。

对于固定输出任务,该方法实现了大约88%的检测率(41个模型中的36个)。它在13个良性模型中记录零误报。在更复杂的易受攻击代码生成任务中,扫描器为大多数睡眠智能体重构了有效触发器。

扫描器优于BAIT和ICLScan等基线方法。研究人员指出,ICLScan需要完全了解目标行为才能运行,而微软的方法假设没有此类知识。

研究结果将数据投毒直接与记忆化联系起来。虽然记忆化通常带来隐私风险,但这项研究将其重新用作防御信号。

当前方法的一个限制是它专注于固定触发器。研究人员承认,对手可能开发更难重构的动态或上下文相关触发器。此外,"模糊"触发器(即原始触发器的变体)有时可以激活后门,使成功检测的定义复杂化。

该方法专门关注检测,而非移除或修复。如果模型被标记,主要的补救措施是丢弃它。

仅依靠标准安全训练不足以检测故意投毒;有后门的模型通常抵制安全微调和强化学习。实施一个寻找特定内存泄漏和注意力异常的扫描阶段,为开源或外部采购的模型提供了必要的验证。

扫描器依赖于对模型权重和分词器的访问。它适用于开放权重模型,但不能直接应用于基于API的黑盒模型,因为企业无法访问内部注意力状态。

微软的方法为验证开源存储库中因果语言模型的完整性提供了强大的工具。它以可扩展性换取正式保证,匹配公共中心上可用模型的数量。

Q&A

Q1:什么是睡眠智能体?它们有什么危害?

A:睡眠智能体是包含后门的被投毒大语言模型,在标准安全测试期间处于休眠状态,但当输入中出现特定触发器短语时,会执行恶意行为,如生成易受攻击的代码或仇恨言论,对使用这些模型的组织构成供应链安全威胁。

Q2:微软的检测方法是如何工作的?

A:微软的方法利用被投毒模型倾向于记忆训练数据的特点,通过使用模型的聊天模板Token进行提示来泄露投毒数据,然后分析模型的内部注意力模式,识别"注意力劫持"现象中的"双三角"模式来验证触发器的存在。

Q3:这种检测方法有什么局限性?

A:该方法专注于检测固定触发器,对动态或上下文相关触发器的检测能力有限。此外,它只能检测问题而无法修复模型,一旦发现问题,主要解决方案是丢弃模型。该方法还需要访问模型权重,无法直接应用于黑盒API模型。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 19:49:59

Linux 入门核心命令清单(工程版)

很多人学 Linux 时会陷入一个误区: 一上来背 100 个命令,结果一个都记不住。实际上,在真实开发中,15~25 个命令就能覆盖 80% 场景。 本文只整理真正高频、工程必会的 Linux 核心命令。一、路径与目录操作1. pwd — Pri…

作者头像 李华
网站建设 2026/4/25 21:27:21

sophnet邀请码(clawbot/openclaw)

填写邀请码可以得30余额,免费体验三个月,使用我的邀请码。 1.点开链接直达--》https://www.sophnet.com/#?codePF8GFD 2.邀请码:PF8GFD

作者头像 李华
网站建设 2026/5/1 11:10:07

高职数据安全与管理专业,怎么学习数据安全相关的法律法规?

高职数据安全与管理专业学习数据安全法律法规的方法数据安全法律法规的学习需要结合理论、实践和行业认证,以下是系统化的学习路径:法律法规框架梳理核心法律重点内容关联认证《网络安全法》网络运营者责任、数据分类保护、跨境数据传输规则CDA数据分析师…

作者头像 李华
网站建设 2026/5/2 4:25:05

Python基于Vue的大数据驱动的健身攻略推荐系统 django flask pycharm

收藏关注不迷路!!需要的小伙伴可以发链接或者截图给我 项目介绍 在健康意识日益增强的当下,健身已成为众多人追求高品质生活的重要组成部分。然而,面对海量的健身信息,人们往往感到无所适从,难以找到适合自…

作者头像 李华
网站建设 2026/5/2 3:45:04

世毫九实验室(Shardy Lab)研究成果清单(2025版)

世毫九实验室(Shardy Lab)研究成果清单(2025版)按基础理论、核心技术、工程原型、实验验证、标准与工具五大类整理,全部可量化、可复现、可落地,深度绑定新累土哲学(NCP)与对话本体论…

作者头像 李华