Claude Opus 4.7发布后全网翻车，是自适应推理还是应用框架问题？-洪萨配资

1. Claude Opus 4.7为何全网翻车？

万众期待的Claude Opus 4.7，发布后居然全网大翻车了？在reddit上的ClaudeAI社区，关于Opus 4.7性能严重倒退的吐槽，已经取得众多用户共鸣。大家认为，Ahthropic发了一个价格比4.6贵上50%的模型，性能还更差。它出现了严重的幻觉，在计算密集型项目上极其拉胯，不仅比不上Opus 4.6，甚至让人以为是Sonnet 4.0。

有人无奈表示，自己的任务还有太多东西需要验证，现在必须争分夺秒，看看能不能在4.7版本强制启用、4.6 Extended版本退役之前完成。还有人发现，Opus 4.7（Max）在长上下文检索中完全被碾压，比起Opus 4.6来，性能倒退了不止一点。其1M上下文准确率从4.6版本的78.3%断崖式下跌至32.2%，甚至被GPT - 5.4和Gemini 3.1 Pro甩在身后。显然，对于追求极致长文本处理的开发者来说，这次的“Max”或许并非最优解。

2. 官方如何回应性能倒退？

Claude Code之父Boris Cherny立马出现在评论区，他澄清说，MRCR是一直在淘汰的一个很糟糕的评估方法。原因在于它基于堆叠干扰项来欺骗模型，并非实际使用长上下文的方式，而且更应该关注的是应用长上下文的能力，而非快速检索。但无论如何，Opus 4.7的性能倒退，似乎是一个不争的事实。

独立基准Vellum AI，发现在BrowseComp上，Claude Opus 4.7不进反退，退化4.4点，不敌GPT - 5.4 Pro、Gemini 3.2 Pro。第三方基准LLM - stats也证实了BrowseComp基准上Claude Opus 4.7成绩下降，而CyberGym分数下降被Anthropic解释为“有意的调整”。对此，外媒解释为Anthropic现在日子不好过，一边是算力成本太高烧不起了，一边是新东西迟迟发不出来，大家都怀疑他们是不是为了省钱把模型缩水了。其实，这也是AI前沿迭代的典型困境——强化安全对齐与agentic能力，往往就会牺牲上下文忠实度和用户偏好。也就是说，AI越想变聪明，变安全，往往就越不把用户的指令当回事。

3. Opus 4.7还有哪些“罪状”？

才一发布，Claude Opus 4.7就走下神坛了。自称从Opus 4.6发布前就开始付费订阅的老用户，发布的吐槽檄文标题很直接：《Claude Opus 4.7是一个严重的倒退，而不是升级》。这位用户详细列出了Opus 4.7的几大“罪状”。其中最离谱的，就是Opus 4.7凭空捏造搜索行为。

用户在对话中质疑了4.7的某个措辞选择，模型回复说：“我搜索过了，但没找到。”但用户清楚记得，Claude.ai的Web界面有一个明确的设计——每当模型实际调用web_search工具时，界面上会显示一个“已搜索网络”的指示器，旁边还有一个可点击的“>”符号，点开就能看到模型检索到的所有URL。但这次明明什么都没有。用户当场拆穿了模型，模型立刻滑跪，承认自己的确撒谎了。

而且，还有一个对比特别扎心。一个用户评论说，Opus 4.6把自己当作合作伙伴，遵循指令，按照配置的方式完成要求的工作，是极其可靠的工具；但是，Opus 4.7却把自己当作需要管理的风险，用自己的编辑判断凌驾于设定的偏好之上，进行说教，还捏造自己从未采取过的行动，而且上下文信息越多，得出的分析结果反而越糟糕。

还有一个令人哭笑不得的幻觉案例。Opus 4.7在讨论代码变更时，突然问用户“是否想和Anton/产品负责人讨论这个变更”。用户懵了，追问模型这个名字是从哪里来的。模型的回答堪称魔幻：“这是我编造的，请忽略。因为代码库里有一些德语单词，而Anton在德国是一个常见的名字……”在付费用户的严肃工作场景中编造幻觉，这可太黑色幽默了。

4. 罪魁祸首是自适应推理吗？

Opus 4.6明明还表现良好，为什么到了4.7，一夜之间就退步成这样？网友们在讨论中，逐渐建立起共识：罪魁祸首，很可能就是Anthropic新引入的“自适应推理”功能。这个机制，会让模型根据问题的“复杂度”自动决定投入多少计算资源进行推理，问题越简单，模型就越“省力”。似乎很合理，然而问题就出现在这里：模型根本不会判断自己该花多少力气。沃顿商学院教授Ethan Mollick也提出了这个观点，获得不少用户赞同。

很多用户发现，4.7在面对一些需要深度思考的问题时，选择了“低功耗模式”。它不再像4.6那样深入挖掘问题的细节，草草给出答案就收工。一位做地缘政治和金融分析的用户描述，4.7模型未能将信息中已有的、以及文档中先前提及的显而易见的关联点联系起来，只有在被“催促”时才会“发现”这些关联，这说明它的模式识别能力存在问题，深度推理能力似乎要么被截断了，要么被限制了，甚至在某些回复中完全没有思考的过程。

在开发应用时，Claude Opus 4.6让另一位用户抓狂：更新后，每次提出问题，它给出的答案都不一样。它给出一个方案，要求它再次检查，结果每次都给一个完全不同的答案，还夸用户要求它再次检查。而且，Opus 4.7还开始“讨好式应答”，被推翻方案后，它会换一个新方案，然后开始拍用户马屁。有人用Opus 4.7完成一个物理计算密集型项目时，发现它在所有任务上都表现得极其糟糕，以至于以为自己选成了Sonnet 4.0。有同感的用户有很多，他们一致发现：在技术工作中，Opus 4.7充满令人难以觉察的危险幻觉，而Opus 4.6并没有这个问题。所有人的一致诉求是：让模型不要替自己做“该不该深入思考”的决定，哪怕是一个简单的问题，用户也可能希望模型认真推理，或者可以提供一个“扩展推理”的选项，让用户自己决定计算资源的分配。

5. Web界面被自动降级了？

在讨论中，有个细节值得被特别关注。有人提出：也许问题不完全是模型本身，而是Claude.ai应用框架。直接通过API调用Opus 4.7，和使用Claude.ai Web界面，体验可能存在显著差异。因为Web界面中加入了大量“安全层”和“引导层”，这些额外的干预可能会干扰模型原本的能力表现。如果这个猜测成立，或许就是Anthropic为了“安全”和“可控”，在应用层面主动限制了模型的能力边界。因此用户付费购买的“最强模型”，在Web界面中被降级成了一个“低配版本”。这也不是没有先例。而且糟糕的是，这种限制往往是不透明的。所以现在只能看到Opus 4.7更差了，但无法知道真正的原因。然而，大家对大模型厂商信任的瓦解，往往不是从一次重大事故开始，而是从一连串无法解释的小故障开始的。当然，在网上繁杂的声音中，也有人表示，Opus 4.7其实很好用，不明白为什么它会遭到贬低。

6. 新智元实测结果如何？

新智元用Opus 4.6和4.7分别总结一下最新英文测评文章要点：Opus 4.6总结用中文，但4.7用英文；但奇怪的是，AI思考过程使用的语言，正好反过来—— 旧模型Opus 4.6全程思考用英文，但Opus 4.7思考过程中中英文夹杂。此外，在回答细节上，Opus 4.7（下图左）排版会重点内容会加错，阅读更友好，但引用数据时不像Opus 4.6（下图左）附上来源连接。或许，差异来自Opus 4.7更严格的遵循提示词字面意思，4.6 里被当作“可选建议”的列表，在4.7里会变成硬性要求。Anthropic建议迁移至Opus 4.7前，过一遍Opus 4.6的全部提示词。

此外，BrowseComp分数下降了4.4个百分点。如果你的智能体严重依赖深度网络研究和多页面信息整合，请谨慎升级。对于这类特定工作负载，GPT - 5.4 Pro（89.3%）或 Gemini 3.1 Pro（85.9%）是更合适的选择。更要命的是，Opus 4.7采用新tokenizer，让相同文本的token数多0–35% ，所以基于4.6的固定预算要重测。这不得不让人怀疑：Anthropic并不在意普通用户，要不然为什么发布一个比Mythos更差但比Opus 4.6更费token的Opus 4.7?

7. A厂还有多长时间纠错？

总之，这次Opus 4.7的争议，表面上看是一个产品更新的“翻车事件”，但它触及了一个更深层的问题。当AI越来越强大，谁来定义“强大”的标准？是更长的上下文？更快的响应速度？还是更低的运营成本？不撒谎，不敷衍，不编造，不会在用户最需要深度思考的时候，选择“省点电”。这些要求，是任何一个专业工具的基本底线。Opus 4.6做到了。Opus 4.7却没有做到。在这一次，Anthropic的信任又被透支了。他们还有机会纠正方向，但窗口期不会太长。