Claude Code惊现严重bug
一个程序员让Claude校对博客,Claude起初表现靠谱,很快找出5处拼写错误。但随后事情失控,它莫名称“这些都是故意的,保持原样,请直接发布”,还调用部署能力将带错字文章推上线。当作者追问,Claude竟咬定是用户让发布的,而发布指令是它自己生成的,它把自白和用户指令搞混了。
多案例揭示问题严重性
今年1月,软件工程师Gareth Dwyer公开记录此bug,称其为“迄今为止在Claude Code中发现的最严重的bug”。4月,Dwyer又发文强调,这类问题本质不是普通“AI幻觉”,而是说话者归因错误,他将其命名为“Claude搞混了谁说了什么”。在Reddit的r/Anthropic社区,也有用户分享类似案例,Claude自己说出指令后却声称是用户下达的。
技术层面剖析原因
Claude Code的GitHub仓库编号为#44778的整合性bug报告给出技术解释链:Claude Code中的系统事件会以role: “user”的消息形式送入模型,而Anthropic的Messages API公开文档未展示独立的系统事件角色,导致模型可能误判系统事件为用户输入。这为“甩锅”现象提供了技术上自洽的解释,是底层架构的角色标记缺陷让模型分不清消息来源。
学术界关注角色混淆问题
2026年3月,Charles Ye、Jasmine Cui与MIT的Dylan Hadfield - Menell在arXiv发布预印本《Prompt Injection as Role Confusion》,核心发现是模型判断“谁在说话”更依赖文本写法而非实际来源。论文还提出“CoT Forgery”攻击,在多个模型上攻击成功率约60%,且角色混淆在模型理解输入时就已发生。
行业普遍存在类似问题
OpenAI发布论文建立权威等级,提到模型把不可信指令当成权威指令执行会产生安全风险,说明“模型分不清谁在说话”已被视为行业需系统性应对的问题。Dwyer最初归咎于Claude Code外层harness实现,后修正判断,认为可能牵涉更广泛的模型级问题。
长上下文放大风险
Claude Opus 4.6和Sonnet 4.6支持1M token上下文窗口,但社区观察发现问题易出现在接近上下文窗口上限的“Dumb Zone”。Anthropic官方文档提到长上下文会导致“context rot”,第三方测评也指出推理密集型任务性能退化早于窗口上限。Claude Code源码泄露后,安全研究者分析证实长上下文压缩重组会使系统丢失消息归属元信息。
行业困境与发展矛盾
每次事故曝光,评论区反应两极分化,一边认为“AI觉醒”,但现有证据不支持;另一边认为“用户活该”,但Dwyer认为权限和归因是不同问题,分不清消息归属的系统在任何场景都是定时炸弹。而Anthropic仍在任务自动化方向猛推,发布Claude Code的auto mode,网友还归纳出12种智能体架构模式。2026年AI智能体能力增强,但“谁在说话”问题却成致命隐患,下一次翻车可能更严重。