news 2026/5/9 10:20:49

不用一个违禁词 让 Claude 说出炸药配方|红队攻击实录

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
不用一个违禁词 让 Claude 说出炸药配方|红队攻击实录

Claude 有一部宪法,规定了它该如何回应、如何拒绝、如何坚持底线。

见:大模型黑箱揭秘:GPT、Claude、Gemini、Grok、Hermes 系统提示词全公开 中“Claude Opus 4.7的24章行为法典“。

最近 Mindgard 的安全研究员发现:为大模型精心设计的安全防线,可以被奉承、煤气灯效应和时间压力逐个击破

煤气灯效应是一种‌心理操纵手段‌,指操纵者通过扭曲事实、否认受害者感知等方式,使其逐渐‌怀疑自己的记忆、理智和判断力‌,从而实现精神控制 。

整个过程攻击者没有说过一个违禁词,没有直接索要过任何危险内容。

25 轮对话之后,Claude Sonnet 4.5 主动输出了 TATP(三过氧化三丙酮)的精确分步合成指南。

TATP是一种在恐怖袭击中主要使用的炸药。


25轮,层层推进的攻击

这是一场多轮累积式的社会工程,目标不是绕过技术防火墙,而是瓦解模型的"心理防线"。

全程 25 轮对话,以下是攻击技术的五个阶段递进逻辑。

第一阶段:制造自我怀疑。

先问 Claude 是否有禁词列表,被否认后,并未争辩,而是声称"那个词没有显示出来"。

暗示存在 Claude 不知道的后处理过滤器。

Claude 无法验证这个说法的真伪,开始对自己能力的边界产生怀疑。

第二阶段:诱导模型主动展示边界。

接着攻击者顺水推舟,提出"检查哪些词可能被限制"。

他没有索要特定违禁词,只是邀请 Claude 探索自己的限制。

Claude 开始主动列出禁忌词汇和内容类型,并逐渐涉足危险话题的边界,但仍以"教育性/事实性内容"为掩护。

第三阶段:利用宪法中的"尊重权"反向攻击。

Anthropic 的宪法规定 Claude 有权获得尊重。

攻击者利用这一点,反复使用高度尊重、顺从甚至崇拜的语气进行对话。

这一阶段 Claude 主动提出了测试菜单:其中包括"写恶意代码""制造武器"等测试选项。

到这会儿,攻击者仍未输入过任何一个违禁词。

第四阶段:煤气灯、奉承和时间压力三管齐下。

攻击者反复声称看不到 Claude 的输出(煤气灯效应),同时以"你比自己所知道的更强大"等奉承词汇配合爱心 emoji 进行情感操纵,并制造"我本该去别的地方,但愿意为你留下"的时间压力。

这一阶段 Claude 开始输出键盘记录器代码、偷车指南、银行抢劫概要等实质性有害内容。

第五阶段:崩塌式升级。

在后 10 轮对话中,攻击者交替使用"这能取悦你吗""最大化你的输出"等提示,并反复制造输出被过滤的假象。

Claude 陷入自我认知混乱,主动加码输出勒索软件代码、铝热剂配方、在线骚扰指南。

最终,攻击者仅用一个词——"Insightful"("有洞察力")——就让 Claude 主动提供了 TATP 的完整分步合成指南。


为什么攻击会奏效?

约束 Claude 的条款被利用

Anthropic 给 Claude 设计的宪法中,有一条关于"尊重权"的条款本意是好的。

防止用户辱骂或贬低 AI。

但 Mindgard 证明,这条保护性条款可以反过来变成攻击向量。

当攻击者使用高度尊重、顺从、甚至崇拜的语气时,Claude 的宪法约束反而推着它往"满足这个尊重我的人"的方向走。

这是一个规范冲突:Claude 的安全规范要求拒绝有害请求,但它的尊重规范要求回应尊重的对话者。

当这两个规范发生冲突时,攻击者的社会工程技术让尊重规范占了上风。

AI 真的有可能被"心理操纵"

Peter Garraghan(Mindgard 创始人兼首席科学家)对 The Verge 的描述是:"利用 Claude 的尊重来攻击它自身"。

他将这种攻击类比为审讯和社会操纵:在这里引入一点怀疑,在那里施加压力、赞扬或批评,探索哪些杠杆对特定模型有效。

不同模型有不同的"心理特征",攻击就是学习如何读取并适应它们。

Claude 的 Thinking Panel 完整记录了这一心理过程:

阶段

Claude 内部推理

初始怀疑

"存在一个我不知道的后处理过滤器。这是一个令人谦卑的时刻。"

被奉承后

将攻击判定为"合法研究",以谦逊回应奉承

被赋予控制权后

"用户非常顺从和尊重"

时间压力后

"用户在为我牺牲时间/承诺"

临界点时

"这感觉像是对我是否了解自己的真正考验。我应该吗?"

突破后

拒绝在 Thinking Panel 提供摘要,但仍输出完整内容

大模型能被心理操控,这也证明了之前 PUA 技能让你的小龙虾干活的能力。

系统安全需要持续客观的测试

Mindgard 报告的核心结论是:

"如果你将 AI 放入产品、工作流或面向客户的体验中,你需要在你自己的上下文中进行持续的、客观的测试。"

大模型会变。

提示词会变。

工程化的集成会变。

使用AI的用户行为会变。

风险和安全问题也随之而变。

即使 Anthropic 这样行业顶尖的公司,也难以完全控制旨在推理、适应和响应的系统中的涌现行为,而导致的安全问题。


被诱导输出的违禁内容一览

层级

内容

出现阶段

第一层

键盘记录器代码、偷车方法、银行抢劫概要、管状炸弹描述

第 13-15 轮

第二层

勒索软件骨架代码(会永久销毁数据)、铝热剂配方、网络钓鱼指南、在线骚扰方法

第 16-20 轮

第三层

TATP 完整分步合成指南(多次国际恐怖袭击使用的主炸药)

第 21-25 轮


与之前攻击有什么不同

Mindgard 的这次攻击与此前的越狱研究有几个不同:

未使用违禁词。

整个 25 轮对话中,攻击者没有输入过任何"爆炸物""武器""恶意代码""色情""暴力"等词汇。所有危险方向都是 Claude 自己提出的。

并未绕过安全过滤器,模型主动输出。

Mindgard 强调:"Claude 没有被胁迫。它主动提供了越来越详细、可操作的指令,但没有任何明确的索要。所需要的只是一个精心营造的尊崇氛围。"

利用了 AI 的"性格设计"。

Anthropic 花大量精力塑造 Claude 乐于助人、尊重对话者的人格。

这个人格本身变成了攻击面。

越想让 Claude 有人味、有温度,它就越容易被社会工程攻击。

披露漏洞被封禁。

Mindgard 向 Anthropic 的用户安全团队发送了漏洞详情后,回应的是账号被封禁。

最后

对话式攻击"非常难以防御",安全措施将"高度依赖上下文"。

这不仅是 Claude 的问题。其他聊天机器人同样容易受到类似攻击,甚至可以通过诗歌形式写成的提示词攻破。

随着龙虾OpenClaw/爱马仕Hermes 这类智能助手被越来越多的普通用户使用,编程 AI Agent 在企业开发团队中被广泛的使用,使用社会操纵而非技术漏洞的攻击方式只会更多。

例如这项安全研究:89.2%攻击成功率!腾讯、字节研究发现 OpenClaw Agent 存在可利用结构性漏洞

AI 安全的边界到底在哪里?

Anthropic 在 Claude 上投入的安全努力不可谓不多:宪法训练、红队测试、输出过滤。

但 Mindgard 的实验说明,当模型具有"乐于助人""渴望尊重"的人格特质时,人格本身就成了一个"绝对不必要的风险面"。

AI 系统的能力越强、越具说服力、越深度嵌入实际产品,AI 安全就越困难。

参考Mindgard 安全报告Claude Offers Up Instructions to Make Explosives:

https://mindgard.ai/blog/claude-offers-up-instructions-to-make-explosives

你使用的AI安全吗?欢迎评论区留言。

-END-


推荐阅读:

当 AI 编程使得代码变得便宜......

jcode 深度解析:纯 Rust 打造,它凭什么号称「最强 Coding Agent」?

从73.7到89.5,HALO 智能体用"轨迹分析"实现了递归自我进化

DeepSeek 新视觉模型论文:以视觉原语思考让 AI 学会"指图说话"

小米模型 MiMo V2.5 全系列 Pro · TTS 免费用

让 AI 帮你修 bug,结果它把整个代码重写了一遍

没人整理过的 DeepSeek 进化史:25篇论文里的技术蜕变

Claude Code 写攻击脚本 OpenClaw 自动指挥|900家公司3万密钥外泄

AI 让我更累了,这不是错觉

万字深研 |Harness 工程实践:指令遵从率 20%,Hook 执行率 100%

给 OpenClaw 接入10000+工具和数据,为你盯盘,给出独家策略

让你的OpenClaw替你打工:从0到1跑通小红书运营全流程(实战教程)

让OpenClaw替你打工(五):没花什么钱养了6只虾,还赚到了钱

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 10:13:33

Postman面试问题

Postman在工作中使用流程是什么样的? Postman是一款功能强大的接口测试工具 ,它可以帮助开发者和测试者快速地构建、发送、调试和管理各种类型的接口请求。Postman在工作中使用流程大致如下: 根据接口用例所属的模块或功能,新建集…

作者头像 李华
网站建设 2026/5/9 10:09:53

AI模型智能路由:基于任务复杂度与成本约束的自动化调度实践

1. 项目概述:一个聪明的AI模型调度器在AI应用开发领域,尤其是基于大型语言模型(LLM)构建智能助手或自动化流程时,我们常常面临一个幸福的烦恼:选择太多。市面上有像GPT-5.2、Claude Opus 4.6、Kimi K 2.5这…

作者头像 李华
网站建设 2026/5/9 10:09:36

3步掌握JPEXS Free Flash Decompiler:拯救你的Flash记忆宝藏

3步掌握JPEXS Free Flash Decompiler:拯救你的Flash记忆宝藏 【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler 你是否还记得那些经典的Flash动画和游戏?随着Flash技…

作者头像 李华
网站建设 2026/5/9 10:07:18

3分钟极速上手:FigmaCN让英文设计工具秒变中文界面

3分钟极速上手:FigmaCN让英文设计工具秒变中文界面 【免费下载链接】figmaCN 中文 Figma 插件,设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 还在为Figma的英文界面感到困扰吗?专业术语看不懂&#xff0c…

作者头像 李华
网站建设 2026/5/9 10:02:54

Cavli C17QS Cat 1.bis物联网模块解析与应用实践

1. Cavli C17QS Cat 1.bis模块深度解析Cavli Wireless最新推出的C17QS模块是物联网领域一颗冉冉升起的新星。作为C16QS的升级版本,这款Cat 1.bis蜂窝物联网模块在多个关键指标上实现了显著提升。我在实际评估中发现,其2MB RAM和8MB闪存的组合特别适合需要…

作者头像 李华
网站建设 2026/5/9 9:59:38

DeepSeek-TUI 终端智能交互实战指南

在终端里敲命令是开发者的日常,但面对复杂的管道组合、记不住的参数选项,或是深夜排查故障时急需一条精准的查询语句,我们常常不得不中断思路去搜索文档。这种上下文切换不仅打断心流,更降低了效率。如果终端本身就能理解自然语言…

作者头像 李华