Anthropic 高光期被打断
Anthropic 最近几个月原本处在一段少见的高光期。一方面,Claude Code 和 Claude Cowork 的能力提升,拉高了外界对 Anthropic 工程能力的评价;另一方面,Claude 是用户心中“最会写”的模型之一,甚至在与美国国防部相关争议引发关注后,Claude 一度冲上 App Store 榜首。但这种势头被 Opus 4.7 的发布打断。
Opus 4.7 问题频出
在 Opus 4.6 被质疑“削弱”后,Opus 4.7 未带来明显升级感,反而在准确性、稳定性、成本控制和实际可用性上暴露出更多问题。社交媒体上有不少关于 Opus 4.7“翻车”的案例,如 Reddit 上一条标题为“Claude Opus 4.7 是一次严重退步,而不是升级”的帖子获得 2300 个点赞,X 上有用户表示 4.7 没比 4.6 好,获 1.4 万点赞。
Opus 4.7 还出现一些基础问题,如在 AI 测试中表示“strawberry”有两个字母 P,模型承认自己“有点懒”未进行交叉验证,修改简历时“编造”新学校或姓氏等。有人猜测问题出在模型推理机制上,Anthropic 引入的“自适应推理”功能被部分用户认为“削弱了性能”,但 Claude Code 的作者 Boris Cherny 称自适应思考整体效果更好。
Opus 4.7 成本争议
Opus 4.7 采用新的 tokenizer,token 消耗比旧模型高出 1.0 - 1.35 倍,有用户称 Claude Pro 问三次问题就触及上限,GitHub Copilot 中 Opus 4.7 价格一度达 7.5 倍溢价。Anthropic 提高订阅用户使用额度作为补偿,但仍有用户不满,试图回到旧版本却发现 4.5 已下线。
Claude Code 编程能力走弱
对于使用 Claude Code 的开发者来说,感受更明显。Claude Code 对原本能完成的任务更迟疑,甚至拒绝相邻任务,而 OpenAI 的 Codex 能快速解决同类问题。Margin Lab 内部基准测试显示,自 3 月以来,相关模型加权平均成绩从 57% 下降至 55% 且持续下滑。
AMD 的 AI 团队报告指出,Anthropic 推出的“思考内容遮蔽”与复杂长会话工程任务中的质量回退高度相关,Claude Code 工作方式从“先研究再编辑”转向“先动手修改再说”,被开发者认为更危险。
Anthropic 工程能力遭质疑
知名博主 Theo - t3․gg 认为,Claude 变笨可能是多层问题叠加的结果,包括 harness 污染上下文、API 过滤和路由策略变更、thinking redaction 影响长会话推理、tokenizer 改动放大 token 消耗,以及多硬件平台部署带来的不确定性等。
Anthropic 未完全押注 Nvidia GPU,采用多平台部署,可能导致任务质量波动。Theo - t3․gg 推测,Anthropic 推广 100 万上下文窗口可能是引导流量手段,这让开发者有“默认更大上下文,带来默认更差体验”的感受。
谷歌入局争夺市场
相比之下,OpenAI 及 Codex 未遭遇同等规模、同等持续性的“变笨”争议。而今天 The Information 报道称,谷歌成立突击队改进编码模型,Brin 与谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 参与工作,谷歌高层重视程度可见一斑。Gemini 3 证明了谷歌追赶能力,有潜力动摇 Anthropic 的核心编程优势。
Anthropic 调整 Claude 产品角色
Opus 4.7 发布后,资深开发者 Simon Willison 对比 Opus 4.6 和 4.7 发现,Anthropic 正在调整 Claude 的产品角色。“开发者平台”更名为“Claude 平台”,Claude 工具列表增加,儿童安全部分扩展,官方让 Claude 变得不那么“粘人”,新增部分规则,鼓励 Claude 减少冗长表达等。
此外,Opus 4.7 新增“进食障碍”部分,增加对常见攻击的防护,模型知识截止时间更新到 2026 年 1 月。但 Anthropic 未公开模型“工具描述”,Willison 通过对话获得一些信息,工具列表与 Opus 4.6 相比未变。