2026 年 5 月开源模型 Token 服务性能榜出炉！实测 30 + 服务商，看清Token服务三层架构下真实服务实力-洪萨配资

6月10日，可信 Token 云服务研讨会在北京举办。清华大学翟季冬教授团队联合清程极智，正式发布2026 年 5 月开源模型 Token 服务性能评测排行榜。本次评测覆盖 DeepSeek-V4-Pro、GLM-5.1、Kimi-K2.6、MiniMax-M2.7 四款主流开源模型，以及国内 30 余家头部 Token 服务商，用首字延迟、输出吞吐、缓存命中率三大核心指标，客观呈现各家服务能力，为全行业提供权威选型参考。

当前 Token 服务市场规模飞速扩张，行业也逐步形成底层生产层、中层中转层、顶层调度层的三层架构体系。底层算力集群提供基础 Token 产能，中转层整合分散资源统一对外服务，而顶层调度层则依靠专业评测与智能调度，优化全链路流转效率。

但在快速发展过程中，行业乱象也随之显现：同款开源模型，经不同服务商落地后，性能表现差距巨大，输出吞吐最高相差 4.9 倍，首字延迟最大差距达 4.3 倍；部分服务商短期跑分数据亮眼，长期稳态运行却频繁出现卡顿、慢响应；多轮对话场景下，缓存能力参差不齐，直接影响使用体验与运营成本。

想要推动三层架构协同发展、提升全链路服务质量，首先就需要一套统一、科学的评测标准，摸清各家服务商的真实水平。为此，本次评测依托 AI Ping 专业体系，打破传统单次 “跑分” 的局限，打造公平、严谨的评测规则：

统一基准：所有参测服务商使用相同模型、相同提示词、相同测试时间窗口，保障对比公平；

长期稳态评测：采用持续监测模式，搭配多地区分布式服务器开展测试，数据更贴合真实线上运行场景，参考价值更高；

三大核心指标：以首字延迟（TTFT P90）衡量响应速度、输出吞吐（TPS）衡量生成效率、缓存命中率衡量使用成本，全面覆盖业务核心需求。

本次榜单针对四款主流开源模型完成专项测评，涉及阿里云百炼、百度智能云、火山方舟、智谱、DeepSeek、Moonshot AI、讯飞星辰等众多知名服务商，不同模型、不同梯队的性能特征清晰分明。

一、DeepSeek-V4-Pro：综合性能均衡，服务稳定性突出

该模型综合适配各类通用场景，各家服务商整体表现稳健。

首字延迟：头部服务商最低仅 0.673 秒，前五名均控制在 1.025 秒以内，即时响应能力优秀

输出吞吐：榜首达到 42.15 tokens/s，梯队间差距较小，整体生成效率稳定

缓存命中率：前五名均高于 92.4%，最高达 93.46%，在多轮对话场景中表现可靠

二、GLM-5.1：头部优势断层，服务商能力分化明显

本次测评中，该模型不同服务商之间性能差距最大。

首字延迟：第一名低至 0.534 秒，第五名达到 2.196 秒，响应速度差距显著；

输出吞吐：榜首吞吐高达 86.94 tokens/s，几乎是第二名的两倍，领先优势突出；

缓存命中率：头部梯队维持在 92% 以上，后续梯队快速下滑，最低仅 80.34%，对企业成本影响较大。

三、Kimi-K2.6：吞吐能力强劲，实时交互体验佳

模型主打实时交互与综合推理，头部服务商综合表现亮眼。

首字延迟：前五名区间为 0.973 秒 - 1.660 秒，可满足日常实时对话需求；

输出吞吐：第一名突破 81.80 tokens/s，内容输出速度表现强劲；

缓存命中率：前三家均高于 90%，最高 93.44%

四、MiniMax-M2.7：缓存能力领跑，适配高频多轮对话

该模型主打多轮对话场景，全梯队缓存命中率表现亮眼。

首字延迟：整体数值偏高，前五名在 2.153 秒 - 3.142 秒区间，整体表现良好。

输出吞吐：梯队分层清晰，第一名达 80.56 tokens/s，生成效率不俗；

高缓存命中率有效控制使用成本，榜单前三超 93.47%，前五最低达 92.2%，适配高频多轮对话场景。

翟季冬教授表示：“Token 服务三层架构中，底层算力、中层资源整合能力最终都会体现在终端服务指标上。即便是同款模型，服务商的工程优化、集群调度、缓存策略等能力，都会直接影响延迟、吞吐、命中率等核心数据。在大规模、高并发的生产环境中，细微的性能差距都会被放大，直接影响用户体验与企业成本。本次发布的排行榜，不仅是对当前 Token 服务市场的一次全面摸底，更希望以标准化评测为抓手，引导底层、中转层服务商持续优化技术能力，同时为顶层调度层提供可靠的数据支撑，推动整个三层架构高效协同运转。”

从盲目选型转向数据驱动，从单次测评升级为长期稳态监测，这份开源模型 Token 服务性能排行榜，是清程极智联合清华大学，依托中国信通院可信 Token 云服务标准体系深耕行业评测的重要成果。本次大会同步发布了多家厂商共同参与的《Token 云服务提质赋能计划》。未来，清程极智将持续开展常态化测评，不断丰富测评模型与服务商矩阵，为该计划落地提供客观、权威的数据支撑。

2026 年 5 月开源模型 Token 服务性能榜出炉！实测 30 + 服务商，看清Token服务三层架构下真实服务实力

一、DeepSeek-V4-Pro：综合性能均衡，服务稳定性突出

二、GLM-5.1：头部优势断层，服务商能力分化明显

三、Kimi-K2.6：吞吐能力强劲，实时交互体验佳

四、MiniMax-M2.7：缓存能力领跑，适配高频多轮对话

开源音源终极配置指南：三步解锁全网无损音乐库

MC9S12XE Flash操作实战：从寄存器配置到安全编程避坑指南

怎样快速掌握AI全自动短视频制作：Pixelle-Video新手完整指南

Sqribble深度解析：非设计师的云原生PDF出版流水线

AI 驱动的 DApp 安全监控：从被动审计到实时预警

字体与排版防线：ClientRects 与系统字体枚举的底层拦截与伪造