DeepSeek V4 来了，API 却还在按 Token 计价，AI消费者如何守护好你的钱袋子？-洪萨配资

2026年4月24日，万众期待的 DeepSeek V4 预览版终于上线了。

Flash 和 Pro 双版本，全系标配百万上下文，模型权重同步开源，API 定价延续“价格屠夫”风格——Flash 版缓存命中输入仅 0.2 元/百万 tokens，输出也只要 2 元/百万 tokens。

这波发布节奏，精准卡在 OpenAI 推出 GPT-5.5 的几个小时后。两边隔空对垒，场面热闹非凡。但热闹归热闹——有个问题，不得不问了。

为什么到了 2026 年，DeepSeek V4 还在坚持按 token 计费？为什么市面上明明已经有按月订阅的 Coding Plan 类产品，DeepSeek 却不跟进？token 花费不可控，依然是当下程序员最头疼的成本痛点之一——这个问题，值得一次彻底拆解。

先说结论：按 token 计费的底层逻辑，不是 DeepSeek“抠门”，而是 AI 推理的物理成本目前根本没有办法被“包月”兜住。

为什么没有订阅模式？

回答这个问题，得先回到 AI 推理的物理成本。

表面上看，按月订阅似乎是“用户友好”的选项：交一笔固定的钱，无限使用，不用每次调 API 都心惊胆战地算 token。但现实是，这种模式正在被一个冷冰冰的算术题击穿。这就不得不提到 Cursor 的案例。Cursor 曾经是 AI 编程工具里订阅模式的标杆——个人专业版提供“无限量”自动模式体验。但在 2025 年 9 月，Cursor 被迫取消了个人专业版的无限量模式，同时将团队套餐从按请求次数计价全面转向按 token 计价。官方给出的理由是：“以消费级产品的价格，提供对昂贵 AI 模型的无限访问，这种模式已经无法持续了。”

Cursor 不是唯一掉进这个坑的。Anthropic 也曾在 2025 年取消了 Claude Code 每月 200 美元的无限使用套餐。

为什么订阅制在大模型 API 上走不通？36氪曾有一篇分析文章精准概括了这个困境：“和一路走低的训练成本相反，AI 公司的运营成本，尤其是‘推理’费用，正在坐着火箭往上窜。这让 AI 公司面临两难抉择：‘无限订阅’会亏死，‘按量计费’会饿死。”

进一步拆解，订阅制的商业模型里有三个致命漏洞：

第一，模型换代太快。GPT-3.5确实比发布时便宜了 10 倍，但还有谁在用？每当新一代旗舰模型发布，99%的用户需求立刻迁移过去，而新一代模型的推理成本并不会等你“降本”。

第二，Agent 让 token 消耗量爆炸式增长。Agent 在执行任务时需要反复调用模型——查询知识库、规划步骤、生成代码、校验结果、修正错误。一次简单的编程任务，底层可能就是十几次模型调用。Token 消耗增长曲线远远跑在了边际成本下降曲线的前面。

第三，用户使用量极端不均匀。一个重度用户一天可能烧掉轻度用户一个月的 token 量。订阅制能跑起来的核心假设是“大多数用户只使用少量资源”——这个假设在 AI 编程场景下彻底失效。

所以，问题从来不是“DeepSeek 为什么不做订阅”，而是“订阅制在 API 场景下很难跑通”。

怎么让 token 花得值？

DeepSeek 的账算得很清楚。

V4 这次定价，不是简单地把单价压低就完事了，真正的设计巧思藏在一个词里——缓存命中。

我们来看具体的定价结构：

Flash 版本：缓存命中输入 0.2 元/百万 tokens，缓存未命中输入 1 元/百万 tokens，输出 2 元/百万 tokens。Pro 版本：缓存命中输入 1 元，缓存未命中输入 12 元，输出 24 元。

注意一个惊人的价差：Flash 版本的缓存命中与未命中差 5 倍，Pro 版本更是差了 12 倍。

这就是一种支付转移策略：不是说“token 浪费不是问题”，而是把控制 token 浪费的主动权交给开发者——用价格杠杆精准鼓励缓存优化，减少重复计算带来的无效消耗。

相比 V3.2，V4-Flash 在缓存未命中输入上从 2 美元降到了 1 美元（降幅 50%），输出从 3 美元降到了 2 美元（降幅 33%），同时上下文从 128K 直接拉到 1M——8倍上下文，更便宜的价格。

用大白话说：DeepSeek 没做“无限包月”，但给了你极致便宜的单价，再给你一个“省着用就能更便宜”的机制。

Token 浪费正在倒逼行业变革

如果说订阅制不是答案，那 token 浪费这个问题到底有多严重？

答案是：已经到了必须严肃面对的地步。

根据《财经》杂志的统计，2026 年全球企业级 AI 应用中，约 50% 的 token 正在被浪费。

50%，一半，全部在烧钱。这不是传统广告业的口头禅吗？“你永远无法知晓50%的广告费花到哪里了？”

浪费是怎么产生的？AI 应用正在从“对话”转向“执行”。Agent 在复杂多轮任务中，历史文件和对话不断累积，大量无用、冗余、过期的信息被反复计算，导致 token 消耗指数级增长。如华尔街见闻的一篇报道里一针见血的比喻：企业在用最贵的车，跑最短的路。

触目惊心的数据还不止这些。GitHub 上关于“Token Waste”的讨论 Issues 数量已经超过 5200 个，其中仅 2026 年第一季度就新增了 4150 个。

一个真实案例：一位开发者记录了自己使用 OpenClaw的 token 消耗曲线。第一轮对话成本 0.005 美元，到第五轮变成了 0.0665 美元——是第一轮的 13.3 倍；到第十轮，成本达到 0.13 美元，是第一轮的 26 倍。

这些成本，在订阅模式下被隐藏了（平台自己扛），在按量计费模式下则直接转换成账单。所以用户的真实感受是“token 烧钱太快”——但本质上，这不是计费模式的问题，是工程实现粗糙带来的结构性浪费。

小米 MiMo 大模型负责人罗福莉对此有过一段非常精准的评论：“订阅制曾使开发者无需为单次请求 token 成本负责，而 API 按量计费则将‘优化效率’从可选项转变为商业刚性需求。”

AI 计费的未来

梳理当前主流大模型厂商的计费状况——

OpenAI：GPT-5.5 继续走按 token 计费路线，API 定价输入 5 美元、输出 30 美元/百万 tokens。不过有一个值得关注的转变：OpenAI 官方强调 GPT-5.5 完成相同任务所需的 token 数量大幅减少，综合成本未必显著上升——这本质上是在“每 token 做更多事”的维度上竞争，而不是在计价方式上做文章。
阿里云：双层计费体系，基础模型层按 token 计费，上层智能体层按任务或组件计费，引入了“模型推理费+工具调用费+记忆存储费”的叠加模式。
腾讯：基础 API 按量付费 + 预付费资源包模式，WorkBuddy 等产品采用 Credits 积分体系，底层依然与 token 消耗挂钩。
字节跳动：扣子平台采用“按需付费、模块化组合”原则，模型推理费按 token 计费，图片生成按张计费，视频生成按 token 或时长计费，属于分项精细化计费模式。

可以看出一条清晰的趋势：AI 计费正在走向“更精细化的消耗量化”。

开发者如何自救？省钱的几条硬核思路

既然按 token 计费在可预见的未来不可逆转，那与其抱怨费率，不如聊聊怎么在工程层面把 token 花在刀刃上。

用好上下文缓存

DeepSeek V4 的定价设计已经给出了明确的信号——缓存命中和未命中的价差最高 12 倍。这不是营销噱头，是真金白银的成本杠杆。在 Agent 开发中，精心设计缓存友好的上下文前缀结构，避免频繁变动导致缓存失效，能直接砍掉 50%～80% 的输入成本。罗福莉曾明确指出：“第三方 harness 开发者将被迫优化上下文管理、提升 prompt cache 命中率、削减无效 token 消耗。”

采用模型分级策略

不是所有任务都需要调用最强的模型。简单意图识别、格式校验、分类判断等轻量任务，完全可以交给 Flash 级模型处理，只在复杂推理和代码生成时才调用旗舰模型。这种“大小模型分流”的工程策略，在保持体验的前提下，能将总 token 成本降低 30%～70%。

借助 Token 监控与压缩工具

针对 Claude Code 的测试数据表明，一次 30 分钟的中等强度会话可能消耗超过 10 万 token，其中 60%～80% 被浪费在冗余输出、重复文件读取和噪声数据上。当前行业涌现了两大省 token 技术路线：结构化知识压缩（过滤掉对当前步骤无用的上下文信息）和命令输出过滤（精准控制模型的输出范围）。利用这两类工具优化 Agent 的数据流，是当下最直接的降本手段。

优化提示词与对话设计

提示词本身就是 token 消耗大户。不加优化的提示词、冗长的对话历史、模糊的输出要求，都在悄无声息地浪费 token。精简提示词、合理设置最大输出长度、定期清理无用的对话轮次，这些看起来最朴素的做法，往往是账单上差距最大的变量。正如一位业内人士所感慨的：“不用为了控制成本，绞尽脑汁优化提示词”在 token 计费时代本身就是一种奢侈。