这周国产大模型扎堆发布:阿里Qwen 3.6 Max、月之暗面Kimi 2.6、DeepSeek V4箭在弦上……
混元Hy3 preview也在昨天亮相。作为腾讯首席AI科学家姚顺雨主导的第一代模型,它的定位很明确:不到榜单打分,到真实世界解决问题。
先看数据
| 维度 | 数据 |
|---|---|
| 参数 | 295B总量 / 21B激活 |
| 上下文 | 256K(约20万字) |
| SWE-Bench | 53.0% → 74.4%(提升40%+) |
| 价格 | 输入1.2元/百万tokens / 输出4元/百万tokens |
SWE-Bench 74.4%是什么概念?接近GLM-4.7的水平,在国产模型里属于第一梯队。
实测:能做什么?
编程场景(WorkBuddy实测):
- 3D金门大桥交互体验:能跑,但不够写实(受工具限制)
- 游乐场经营小游戏:能玩,UI审美偏"渐变紫"
- 复杂数据抓取+可视化:链路稳定,但"最后一公里"有缺失
办公场景:
- PDF转HTML:能准确定位信息,但精美排版难
- 深度研究报告:数据来源权威,可直接使用
- 数据可视化:调研时间长,输出质量高
日常聊天:
- 主打"活人感",不只会顺从
- 会主动分析原因、给建议
- 创意写作风格更个性化,AI味降低
腾讯的转向
姚顺雨在内部会有个判断:
“模型过度追逐榜单成绩,将打榜语料放入训练集,数据被污染了。模型很会答题,到了真实场景却不稳定。”
这句话点破了行业痛点:
- 榜单衡量能力上限,用户感知能力下限
- MMLU领先两个百分点,用户几乎感知不到
- 指令遵循稍差、格式不稳定,体验断崖下降
所以Hy3 preview不打榜了,开始"出卷子"——解决真实世界的复杂问题。
落地场景
目前Hy3 preview已在:
- 元宝App / QQ
- CodeBuddy / WorkBuddy
- 腾讯文档(企业微信内)
- 微盛·企微管家Claw(企业微信场景)
对于企业微信用户,**微盛·企微管家Claw**已经接入了Hy3 preview,可以在客服、文档处理、数据分析场景中体验。
写在最后
Hy3 preview呈现的是一种"过渡态特征":
- Agent能力已具备,但执行不够稳定
- 技术方向验证了,但工程优化还在路上
- 榜单不打分了,但真实场景的考验才刚开始
腾讯的AI战略正在从"追赶榜单"转向"解决问题"。这条路走对了,但还需要时间。
月活数据是现实的:豆包3.45亿、千问1.66亿、DeepSeek 1.27亿,而元宝才5700万。
但腾讯的筹码是微信生态——13亿用户的雪球滚起来,谁也不知道会发生什么。