news 2026/6/20 10:05:47

Smoke评测:Qwen3 Max约束+23分逆袭,GPT-o3材料约束暴跌15.2分

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Smoke评测:Qwen3 Max约束+23分逆袭,GPT-o3材料约束暴跌15.2分

在2026年6月19日的赢政指数Smoke轻量评测中,Gemini 3.1 Pro以主榜99.28分、代码执行100分、材料约束98.4分位居第一,0.55×执行+0.45×约束的加权结构凸显其双维度均衡优势。

执行满分阵营的约束分化

今日11个模型中,Gemini 3.1 Pro、Claude Opus 4.7、DeepSeek V4 Pro、Qwen3 Max、Gemini 2.5 Pro、Grok 4、GPT-o3、GPT-5.5、豆包Pro、Claude Sonnet 4.6共10个模型代码执行全部达到100分。排名差异几乎完全由材料约束决定:Gemini 3.1 Pro约束98.4分拉开第二名Claude Opus 4.7和DeepSeek V4 Pro的2.53分差距。

文心一言4.5是唯一执行未满分的模型,其代码执行94.1分、材料约束92.2分,主榜93.25分。执行短板使其无法进入前六,但约束表现仍优于GPT-o3的84.8分。

昨日对比下的剧烈波动

与昨日数据对比,Qwen3 Max材料约束提升23分,主榜从约86.95分跃升至97.35分,排名升至第四。Grok 4约束提升19.6分,主榜升8.8分至95.82分。两模型均保持执行100分,约束端的单日改善直接转化为排名上升。

反向波动同样显著。GPT-o3材料约束下降15.2分,主榜降6.8分至93.16分;豆包Pro约束下降15.9分,主榜降7.2分至92.85分。Claude Sonnet 4.6约束下降14分,主榜降6.3分至92.53分。

异常信号的结构解读

GPT-o3与豆包Pro的约束暴跌发生在执行保持100分的前提下,说明问题集中于材料约束环节。0.45的权重使得约束每下降15分左右,主榜即损失约6.8-7.2分,与实际排名下滑幅度一致。两模型昨日约束本已处于中下游,单日进一步下滑后与前五名拉开5分以上差距。

Qwen3 Max和Grok 4的约束提升则显示出不同路径。两者执行本已满分,约束端改善直接推高主榜,且未伴随执行侧波动,结构相对稳健。

约束端单日波动超过15分,已成为区分模型真实可用性的关键信号。

今日排名前六模型约束均在90.7分以上,后五名约束则分布在83.4-92.2分区间。执行满分已成标配,材料约束的稳定性与上限正在决定每日 Smoke 排名的最终格局。


数据来源:赢政指数 (YZ Index) | Run #187 | 查看原始数据

© 2026 Winzheng.com 赢政天下 | 转载请注明来源并附原文链接

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/20 9:47:51

Claude Opus 4.7:从问答模型到可信赖工作流协作者的跃迁

1. 这不是又一个“更强”的版本,而是工作流里突然多出一个靠谱同事 “Claude Opus 4.7发布:更像一个真正能干活的模型了”——这个标题我看到第一眼就停住了。不是因为“4.7”这个数字有多震撼,而是“真正能干活”这五个字,像一记…

作者头像 李华
网站建设 2026/6/20 9:20:25

UI自动化测试失败自动截图:从原理到实战的完整解决方案

1. 项目概述:为什么“失败截图”是UI自动化测试的命门? 做UI自动化测试的朋友,估计都经历过这种抓狂时刻:半夜跑完的测试报告里,某个用例标着鲜红的“失败”,但日志里只有一句“元素未找到”或者“断言失败…

作者头像 李华
网站建设 2026/6/20 9:13:43

【计算机毕业设计案例】基于 Django 的校园二手商品信息运维交易系统 校园绿色二手交易服务平台的设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/20 9:10:47

H3C防火墙命令行开启Web管理:从原理到实践的全流程指南

1. 项目概述:为什么命令行是防火墙管理的基石在网络安全运维的日常里,给一台全新的H3C F1000-C-G防火墙开启Web管理界面,听起来像是个基础操作,但很多新手朋友拿到设备后,第一反应可能是找网线、找管理IP,结…

作者头像 李华
网站建设 2026/6/20 9:10:18

剪映API的解构艺术:从手动剪辑到编程式创作的技术跃迁

剪映API的解构艺术:从手动剪辑到编程式创作的技术跃迁 【免费下载链接】JianYingApi Third Party JianYing Api. 第三方剪映Api 项目地址: https://gitcode.com/gh_mirrors/ji/JianYingApi 当视频剪辑不再是创意工作者的专属领域,当代码开始介入视…

作者头像 李华
网站建设 2026/6/20 9:01:28

PCB LAYOUT关键信号走线实战指南

1. DC-DC开关电源走线实战技巧 DC-DC开关电源是PCB设计中最容易翻车的模块之一。我见过太多新手工程师在电源走线上栽跟头,轻则效率下降10%,重则EMI测试直接超标。这里分享几个我踩过坑才总结出的实战经验。 电流回路的处理是首要任务。开关电源工作时…

作者头像 李华