news 2026/6/11 1:34:53

2026 年 5 月开源模型 Token 服务性能榜出炉!实测 30 + 服务商,看清Token服务三层架构下真实服务实力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2026 年 5 月开源模型 Token 服务性能榜出炉!实测 30 + 服务商,看清Token服务三层架构下真实服务实力

6月10日,可信 Token 云服务研讨会在北京举办。清华大学翟季冬教授团队联合清程极智,正式发布2026 年 5 月开源模型 Token 服务性能评测排行榜。本次评测覆盖 DeepSeek-V4-Pro、GLM-5.1、Kimi-K2.6、MiniMax-M2.7 四款主流开源模型,以及国内 30 余家头部 Token 服务商,用首字延迟、输出吞吐、缓存命中率三大核心指标,客观呈现各家服务能力,为全行业提供权威选型参考。

当前 Token 服务市场规模飞速扩张,行业也逐步形成底层生产层、中层中转层、顶层调度层的三层架构体系。底层算力集群提供基础 Token 产能,中转层整合分散资源统一对外服务,而顶层调度层则依靠专业评测与智能调度,优化全链路流转效率。

但在快速发展过程中,行业乱象也随之显现:同款开源模型,经不同服务商落地后,性能表现差距巨大,输出吞吐最高相差 4.9 倍,首字延迟最大差距达 4.3 倍;部分服务商短期跑分数据亮眼,长期稳态运行却频繁出现卡顿、慢响应;多轮对话场景下,缓存能力参差不齐,直接影响使用体验与运营成本。

想要推动三层架构协同发展、提升全链路服务质量,首先就需要一套统一、科学的评测标准,摸清各家服务商的真实水平。为此,本次评测依托 AI Ping 专业体系,打破传统单次 “跑分” 的局限,打造公平、严谨的评测规则:

统一基准:所有参测服务商使用相同模型、相同提示词、相同测试时间窗口,保障对比公平;

长期稳态评测:采用持续监测模式,搭配多地区分布式服务器开展测试,数据更贴合真实线上运行场景,参考价值更高;

三大核心指标:以首字延迟(TTFT P90) 衡量响应速度、输出吞吐(TPS) 衡量生成效率、缓存命中率衡量使用成本,全面覆盖业务核心需求。

本次榜单针对四款主流开源模型完成专项测评,涉及阿里云百炼、百度智能云、火山方舟、智谱、DeepSeek、Moonshot AI、讯飞星辰等众多知名服务商,不同模型、不同梯队的性能特征清晰分明。

一、DeepSeek-V4-Pro:综合性能均衡,服务稳定性突出

该模型综合适配各类通用场景,各家服务商整体表现稳健。

  • 首字延迟:头部服务商最低仅 0.673 秒,前五名均控制在 1.025 秒以内,即时响应能力优秀
  • 输出吞吐:榜首达到 42.15 tokens/s,梯队间差距较小,整体生成效率稳定
  • 缓存命中率:前五名均高于 92.4%,最高达 93.46%,在多轮对话场景中表现可靠

二、GLM-5.1:头部优势断层,服务商能力分化明显

本次测评中,该模型不同服务商之间性能差距最大。

  • 首字延迟:第一名低至 0.534 秒,第五名达到 2.196 秒,响应速度差距显著;
  • 输出吞吐:榜首吞吐高达 86.94 tokens/s,几乎是第二名的两倍,领先优势突出;
  • 缓存命中率:头部梯队维持在 92% 以上,后续梯队快速下滑,最低仅 80.34%,对企业成本影响较大。

三、Kimi-K2.6:吞吐能力强劲,实时交互体验佳

模型主打实时交互与综合推理,头部服务商综合表现亮眼。

  • 首字延迟:前五名区间为 0.973 秒 - 1.660 秒,可满足日常实时对话需求;
  • 输出吞吐:第一名突破 81.80 tokens/s,内容输出速度表现强劲;
  • 缓存命中率:前三家均高于 90%,最高 93.44%

四、MiniMax-M2.7:缓存能力领跑,适配高频多轮对话

该模型主打多轮对话场景,全梯队缓存命中率表现亮眼。

  • 首字延迟:整体数值偏高,前五名在 2.153 秒 - 3.142 秒区间,整体表现良好。
  • 输出吞吐:梯队分层清晰,第一名达 80.56 tokens/s,生成效率不俗;
  • 高缓存命中率有效控制使用成本,榜单前三超 93.47%,前五最低达 92.2%,适配高频多轮对话场景。

翟季冬教授表示:“Token 服务三层架构中,底层算力、中层资源整合能力最终都会体现在终端服务指标上。即便是同款模型,服务商的工程优化、集群调度、缓存策略等能力,都会直接影响延迟、吞吐、命中率等核心数据。在大规模、高并发的生产环境中,细微的性能差距都会被放大,直接影响用户体验与企业成本。本次发布的排行榜,不仅是对当前 Token 服务市场的一次全面摸底,更希望以标准化评测为抓手,引导底层、中转层服务商持续优化技术能力,同时为顶层调度层提供可靠的数据支撑,推动整个三层架构高效协同运转。”

从盲目选型转向数据驱动,从单次测评升级为长期稳态监测,这份开源模型 Token 服务性能排行榜,是清程极智联合清华大学,依托中国信通院可信 Token 云服务标准体系深耕行业评测的重要成果。本次大会同步发布了多家厂商共同参与的《Token 云服务提质赋能计划》。未来,清程极智将持续开展常态化测评,不断丰富测评模型与服务商矩阵,为该计划落地提供客观、权威的数据支撑。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 1:33:54

开源音源终极配置指南:三步解锁全网无损音乐库

开源音源终极配置指南:三步解锁全网无损音乐库 【免费下载链接】lxmusic- lxmusic(洛雪音乐)全网最新最全音源 项目地址: https://gitcode.com/gh_mirrors/lx/lxmusic- 你是否厌倦了在各个音乐平台间来回切换?是否被高昂的会员费和分散的版权困扰…

作者头像 李华
网站建设 2026/6/11 1:32:54

MC9S12XE Flash操作实战:从寄存器配置到安全编程避坑指南

1. 项目概述与Flash操作的核心挑战在嵌入式开发,尤其是汽车电子和工业控制领域,MC9S12XE系列微控制器因其高可靠性和实时性被广泛应用。这类应用对固件的在线升级(OTA)、参数存储和故障安全机制有着严苛的要求,而这一切…

作者头像 李华
网站建设 2026/6/11 1:32:54

怎样快速掌握AI全自动短视频制作:Pixelle-Video新手完整指南

怎样快速掌握AI全自动短视频制作:Pixelle-Video新手完整指南 【免费下载链接】Pixelle-Video 🚀 AI 全自动短视频引擎 | AI Fully Automated Short Video Engine 项目地址: https://gitcode.com/GitHub_Trending/pi/Pixelle-Video 你是否曾经梦想…

作者头像 李华
网站建设 2026/6/11 1:29:08

Sqribble深度解析:非设计师的云原生PDF出版流水线

1. 项目概述:这不是“一键生成”,而是一套被精心封装的出版流水线 你有没有过这种经历:手头有一篇写得不错的博客,想把它变成一本像模像样的电子书发给客户当赠品;或者团队刚做完一个行业调研,需要快速出一…

作者头像 李华
网站建设 2026/6/11 1:28:16

AI 驱动的 DApp 安全监控:从被动审计到实时预警

AI 驱动的 DApp 安全监控:从被动审计到实时预警 一、DApp 安全的时效性困境:事后审计无法阻止实时攻击 智能合约的安全审计通常在部署前进行,但链上攻击发生在部署后。2023 年,DeFi 协议因漏洞被攻击造成的损失超过 17 亿美元&am…

作者头像 李华
网站建设 2026/6/11 1:26:50

字体与排版防线:ClientRects 与系统字体枚举的底层拦截与伪造

在指纹浏览器的对抗领域,当视觉和听觉的底层伪装已经固若金汤时,很多开发者会折戟于一块看似不起眼的暗礁——字体与排版引擎。 风控系统对字体的检测,绝非仅仅看看你装了什么字体那么简单。它利用的是文档排版后渲染尺寸的物理微差异。同一行…

作者头像 李华