混元Hy3 preview实测：不追榜单的腾讯，开始“出卷子“了-洪萨配资

这周国产大模型扎堆发布：阿里Qwen 3.6 Max、月之暗面Kimi 2.6、DeepSeek V4箭在弦上……

混元Hy3 preview也在昨天亮相。作为腾讯首席AI科学家姚顺雨主导的第一代模型，它的定位很明确：不到榜单打分，到真实世界解决问题。

先看数据

维度	数据
参数	295B总量 / 21B激活
上下文	256K（约20万字）
SWE-Bench	53.0% → 74.4%（提升40%+）
价格	输入1.2元/百万tokens / 输出4元/百万tokens

SWE-Bench 74.4%是什么概念？接近GLM-4.7的水平，在国产模型里属于第一梯队。

实测：能做什么？

编程场景（WorkBuddy实测）：

3D金门大桥交互体验：能跑，但不够写实（受工具限制）
游乐场经营小游戏：能玩，UI审美偏"渐变紫"
复杂数据抓取+可视化：链路稳定，但"最后一公里"有缺失

办公场景：

PDF转HTML：能准确定位信息，但精美排版难
深度研究报告：数据来源权威，可直接使用
数据可视化：调研时间长，输出质量高

日常聊天：

主打"活人感"，不只会顺从
会主动分析原因、给建议
创意写作风格更个性化，AI味降低

腾讯的转向

姚顺雨在内部会有个判断：

“模型过度追逐榜单成绩，将打榜语料放入训练集，数据被污染了。模型很会答题，到了真实场景却不稳定。”

这句话点破了行业痛点：

榜单衡量能力上限，用户感知能力下限
MMLU领先两个百分点，用户几乎感知不到
指令遵循稍差、格式不稳定，体验断崖下降

所以Hy3 preview不打榜了，开始"出卷子"——解决真实世界的复杂问题。

落地场景

目前Hy3 preview已在：

元宝App / QQ
CodeBuddy / WorkBuddy
腾讯文档（企业微信内）
微盛·企微管家Claw（企业微信场景）

对于企业微信用户，**微盛·企微管家Claw**已经接入了Hy3 preview，可以在客服、文档处理、数据分析场景中体验。

写在最后

Hy3 preview呈现的是一种"过渡态特征"：

Agent能力已具备，但执行不够稳定
技术方向验证了，但工程优化还在路上
榜单不打分了，但真实场景的考验才刚开始

腾讯的AI战略正在从"追赶榜单"转向"解决问题"。这条路走对了，但还需要时间。

月活数据是现实的：豆包3.45亿、千问1.66亿、DeepSeek 1.27亿，而元宝才5700万。

但腾讯的筹码是微信生态——13亿用户的雪球滚起来，谁也不知道会发生什么。

2025届最火的五大降重复率助手实际效果

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 论文写作借助人工智能技术开启全新可能，文献检索时，AI工具能高效完成…

李华

网安人必看！从事网安，真的会像程序员一样遇到 35 岁危机吗？

35岁危机不是行业所有的，而是人拥有的。全世界绝大部分人都会遭遇“中年危机”。我们只需要知道“中年危机”来源于哪里，尽力避免就可以啦~ （1）精神压力互联网行业的“996”是有目共睹的，每个行业都会注入新鲜的血液&…

李华

2025届最火的六大AI辅助论文助手推荐榜单

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 在此当下的学术环境情况来说，AI论文网站已然变成了研究辅助方面极为重要的工具&a…

李华

如何用3步将单张图片转换为专业PSD分层文件：Layerdivider完全指南

如何用3步将单张图片转换为专业PSD分层文件：Layerdivider完全指南【免费下载链接】layerdivider A tool to divide a single illustration into a layered structure. 项目地址: https://gitcode.com/gh_mirrors/la/layerdivider 在数字艺术创作和设计工作流…