2026年4月24日,万众期待的 DeepSeek V4 预览版终于上线了。
Flash 和 Pro 双版本,全系标配百万上下文,模型权重同步开源,API 定价延续“价格屠夫”风格——Flash 版缓存命中输入仅 0.2 元/百万 tokens,输出也只要 2 元/百万 tokens。
这波发布节奏,精准卡在 OpenAI 推出 GPT-5.5 的几个小时后。两边隔空对垒,场面热闹非凡。但热闹归热闹——有个问题,不得不问了。
为什么到了 2026 年,DeepSeek V4 还在坚持按 token 计费?为什么市面上明明已经有按月订阅的 Coding Plan 类产品,DeepSeek 却不跟进?token 花费不可控,依然是当下程序员最头疼的成本痛点之一——这个问题,值得一次彻底拆解。
先说结论:按 token 计费的底层逻辑,不是 DeepSeek“抠门”,而是 AI 推理的物理成本目前根本没有办法被“包月”兜住。
为什么没有订阅模式?
回答这个问题,得先回到 AI 推理的物理成本。
表面上看,按月订阅似乎是“用户友好”的选项:交一笔固定的钱,无限使用,不用每次调 API 都心惊胆战地算 token。但现实是,这种模式正在被一个冷冰冰的算术题击穿。这就不得不提到 Cursor 的案例。Cursor 曾经是 AI 编程工具里订阅模式的标杆——个人专业版提供“无限量”自动模式体验。但在 2025 年 9 月,Cursor 被迫取消了个人专业版的无限量模式,同时将团队套餐从按请求次数计价全面转向按 token 计价。官方给出的理由是:“以消费级产品的价格,提供对昂贵 AI 模型的无限访问,这种模式已经无法持续了。”
Cursor 不是唯一掉进这个坑的。Anthropic 也曾在 2025 年取消了 Claude Code 每月 200 美元的无限使用套餐。
为什么订阅制在大模型 API 上走不通?36氪曾有一篇分析文章精准概括了这个困境:“和一路走低的训练成本相反,AI 公司的运营成本,尤其是‘推理’费用,正在坐着火箭往上窜。这让 AI 公司面临两难抉择:‘无限订阅’会亏死,‘按量计费’会饿死。”
进一步拆解,订阅制的商业模型里有三个致命漏洞:
第一,模型换代太快。GPT-3.5确实比发布时便宜了 10 倍,但还有谁在用?每当新一代旗舰模型发布,99%的用户需求立刻迁移过去,而新一代模型的推理成本并不会等你“降本”。
第二,Agent 让 token 消耗量爆炸式增长。Agent 在执行任务时需要反复调用模型——查询知识库、规划步骤、生成代码、校验结果、修正错误。一次简单的编程任务,底层可能就是十几次模型调用。Token 消耗增长曲线远远跑在了边际成本下降曲线的前面。
第三,用户使用量极端不均匀。一个重度用户一天可能烧掉轻度用户一个月的 token 量。订阅制能跑起来的核心假设是“大多数用户只使用少量资源”——这个假设在 AI 编程场景下彻底失效。
所以,问题从来不是“DeepSeek 为什么不做订阅”,而是“订阅制在 API 场景下很难跑通”。
怎么让 token 花得值?
DeepSeek 的账算得很清楚。
V4 这次定价,不是简单地把单价压低就完事了,真正的设计巧思藏在一个词里——缓存命中。
我们来看具体的定价结构:
Flash 版本:缓存命中输入 0.2 元/百万 tokens,缓存未命中输入 1 元/百万 tokens,输出 2 元/百万 tokens。Pro 版本:缓存命中输入 1 元,缓存未命中输入 12 元,输出 24 元。
注意一个惊人的价差:Flash 版本的缓存命中与未命中差 5 倍,Pro 版本更是差了 12 倍。
这就是一种支付转移策略:不是说“token 浪费不是问题”,而是把控制 token 浪费的主动权交给开发者——用价格杠杆精准鼓励缓存优化,减少重复计算带来的无效消耗。
相比 V3.2,V4-Flash 在缓存未命中输入上从 2 美元降到了 1 美元(降幅 50%),输出从 3 美元降到了 2 美元(降幅 33%),同时上下文从 128K 直接拉到 1M——8倍上下文,更便宜的价格。
用大白话说:DeepSeek 没做“无限包月”,但给了你极致便宜的单价,再给你一个“省着用就能更便宜”的机制。
Token 浪费正在倒逼行业变革
如果说订阅制不是答案,那 token 浪费这个问题到底有多严重?
答案是:已经到了必须严肃面对的地步。
根据《财经》杂志的统计,2026 年全球企业级 AI 应用中,约 50% 的 token 正在被浪费。
50%,一半,全部在烧钱。这不是传统广告业的口头禅吗?“你永远无法知晓50%的广告费花到哪里了?”
浪费是怎么产生的?AI 应用正在从“对话”转向“执行”。Agent 在复杂多轮任务中,历史文件和对话不断累积,大量无用、冗余、过期的信息被反复计算,导致 token 消耗指数级增长。如华尔街见闻的一篇报道里一针见血的比喻:企业在用最贵的车,跑最短的路。
触目惊心的数据还不止这些。GitHub 上关于“Token Waste”的讨论 Issues 数量已经超过 5200 个,其中仅 2026 年第一季度就新增了 4150 个。
一个真实案例:一位开发者记录了自己使用 OpenClaw的 token 消耗曲线。第一轮对话成本 0.005 美元,到第五轮变成了 0.0665 美元——是第一轮的 13.3 倍;到第十轮,成本达到 0.13 美元,是第一轮的 26 倍。
这些成本,在订阅模式下被隐藏了(平台自己扛),在按量计费模式下则直接转换成账单。所以用户的真实感受是“token 烧钱太快”——但本质上,这不是计费模式的问题,是工程实现粗糙带来的结构性浪费。
小米 MiMo 大模型负责人罗福莉对此有过一段非常精准的评论:“订阅制曾使开发者无需为单次请求 token 成本负责,而 API 按量计费则将‘优化效率’从可选项转变为商业刚性需求。”
AI 计费的未来
梳理当前主流大模型厂商的计费状况——
OpenAI:GPT-5.5 继续走按 token 计费路线,API 定价输入 5 美元、输出 30 美元/百万 tokens。不过有一个值得关注的转变:OpenAI 官方强调 GPT-5.5 完成相同任务所需的 token 数量大幅减少,综合成本未必显著上升——这本质上是在“每 token 做更多事”的维度上竞争,而不是在计价方式上做文章。
阿里云:双层计费体系,基础模型层按 token 计费,上层智能体层按任务或组件计费,引入了“模型推理费+工具调用费+记忆存储费”的叠加模式。
腾讯:基础 API 按量付费 + 预付费资源包模式,WorkBuddy 等产品采用 Credits 积分体系,底层依然与 token 消耗挂钩。
字节跳动:扣子平台采用“按需付费、模块化组合”原则,模型推理费按 token 计费,图片生成按张计费,视频生成按 token 或时长计费,属于分项精细化计费模式。
可以看出一条清晰的趋势:AI 计费正在走向“更精细化的消耗量化”。
开发者如何自救?省钱的几条硬核思路
既然按 token 计费在可预见的未来不可逆转,那与其抱怨费率,不如聊聊怎么在工程层面把 token 花在刀刃上。
用好上下文缓存
DeepSeek V4 的定价设计已经给出了明确的信号——缓存命中和未命中的价差最高 12 倍。这不是营销噱头,是真金白银的成本杠杆。在 Agent 开发中,精心设计缓存友好的上下文前缀结构,避免频繁变动导致缓存失效,能直接砍掉 50%~80% 的输入成本。罗福莉曾明确指出:“第三方 harness 开发者将被迫优化上下文管理、提升 prompt cache 命中率、削减无效 token 消耗。”
采用模型分级策略
不是所有任务都需要调用最强的模型。简单意图识别、格式校验、分类判断等轻量任务,完全可以交给 Flash 级模型处理,只在复杂推理和代码生成时才调用旗舰模型。这种“大小模型分流”的工程策略,在保持体验的前提下,能将总 token 成本降低 30%~70%。
借助 Token 监控与压缩工具
针对 Claude Code 的测试数据表明,一次 30 分钟的中等强度会话可能消耗超过 10 万 token,其中 60%~80% 被浪费在冗余输出、重复文件读取和噪声数据上。当前行业涌现了两大省 token 技术路线:结构化知识压缩(过滤掉对当前步骤无用的上下文信息)和命令输出过滤(精准控制模型的输出范围)。利用这两类工具优化 Agent 的数据流,是当下最直接的降本手段。
优化提示词与对话设计
提示词本身就是 token 消耗大户。不加优化的提示词、冗长的对话历史、模糊的输出要求,都在悄无声息地浪费 token。精简提示词、合理设置最大输出长度、定期清理无用的对话轮次,这些看起来最朴素的做法,往往是账单上差距最大的变量。正如一位业内人士所感慨的:“不用为了控制成本,绞尽脑汁优化提示词”在 token 计费时代本身就是一种奢侈。
最后
AI 推理每一分算力都有成本。真正能保护钱包的,是你工程层面估计好每个 token 花出了多少有效工作。下一阶段竞争核心不是绝对消耗量,而是算力使用的聪明度,值得每一个在 token 账单前叹气过的开发者,认真琢磨。