AI商业化落地两头堵，效率优先能否推开普及之门？-洪萨配资

AI收费时代来临

上周，豆包正式开始收费，推出专业版并分成三档价格，最高级套餐包年费用达5088元。紧接着，以"价格屠夫"闻名的DeepSeek也要更换计价方式，实行新的峰谷定价模式，每天上午9点到12点、下午2点到6点为高峰，调用成本翻倍。ChatGPT今年2月初往免费用户对话框塞广告，上星期在法国大举招商，广告推送密度增加。白嫖AI的时代似乎即将结束，去年各家还在打价格战，如今都在思考如何让AI生意不再亏损。

商业化落地两头堵

一家AI公司想赚钱，要么多收钱，要么少花钱，但现在这两条路都被堵住了。过去几年，大家遵循互联网打法，疯狂烧钱拉用户，认为用户规模够大成本自然摊薄。然而，AI产品更接近制造业逻辑，用户规模增加，算力成本也随之上升，因为AI成本是刚性的，多一个用户提问，模型就要进行一次推理，消耗一次算力。月活用户9亿的OpenAI去年净亏损385亿美元，今年第一季度情况仍未改善，每收入1美元就要赔1.22美元。豆包日均token调用量达180万亿，日收入却不足100万元。

另一方面，算力供给是稀缺资源，导致算力价格居高不下，总成本降不下来。算力供给的约束是难以突破的物理墙，一是电，Gartner预测2030年全球数据中心用电量将超1200TWh，电网供电无法满足需求；二是芯片，全球高阶AI芯片的先进封装几乎全靠台积电，但台积电产能扩得再快，英伟达一家就能吃掉六成以上，剩下四成还要被几十家公司争抢，有钱也排不上号。

此外，AI形态正从一问一答的Chatbot转向需要持续运行的Agent，这对算力的需求是数量级的跃升。所以，算力成本面临双重夹击，调用量增加成本就增加，规模无法摊薄成本，供给又无法满足需求，成本降不下来。那么涨价多收钱可行吗？

在To B的生产力场景，提价没问题，因为客户看重解决复杂专业问题的能力，企业能接受高成本。但在To C场景，情况不同。2025年ChatGPT的9亿周活跃用户中，个人订阅用户约5000万，占比仅约5%，国内用户付费意愿更低，长期受"免费+广告"互联网模式影响，没有养成为独立软件付费的习惯，5月初豆包试水订阅时，"豆包笨还收费"就冲上了热搜。普通用户对To C的AI产品没有忠诚度，提价甚至从免费到付费都会赶跑大量用户。

那么企业面临的问题是：在AI完成同等任务时，能否消耗更少的算力资源？这就是整个行业目前都在做的事：效率优先。

让每一分算力都花得值

从硬件层到模型架构，行业各层都在围绕效率思路开展工作。在硬件层，英伟达今年在GTC大会上推出了基于Groq技术授权打造的LPU新芯片，专门优化AI推理场景。GPU擅长高并发大规模计算，多用于大模型预训练以提高智能上限，而LPU像精锐小队，擅长快速完成任务，日常面向普通用户的推理场景，响应快、省钱才是性价比最高的。

芯片之上是模型架构，MoE（混合专家架构）成为主流，其优点是模型总参数可堆到万亿级别保证脑容量，但每次只激活一小撮参数，做到又强又省。比如DeepSeek V4 Pro总参数1.6万亿，每次只激活490亿，编码能力逼近顶级闭源模型，输出价格只有GPT - 5.5的八分之一。腾讯开源的hy3 preview也是类似思路，295B参数、激活仅21B，能力接近300B级模型，成本却是20B级别，上了OpenRouter后开发者纷纷使用。腾讯灰度内测的AI助手小微背后的模型WeLM总参数800亿，每次只激活30亿，激活率低至3.75%，比国内极致成本性能代表DeepSeek - V4 - Flash（激活率4.6%）还要低。由于微信月活14亿，一旦"小微"全量开放，推理量巨大，所以小微绝大多数日常请求交给WeLM，碰上难题有合作模型兜底。

在模型运行过程中，还可通过工程手段榨取算力，如DeepSeek等使用的KV缓存复用，即与AI反复聊同一话题时，系统提示词、常用前缀等重复内容无需每次从头计算，直接调用上次结果。DeepSeek还通过价格杠杆优化算力调度，新计价方式下平峰时段价格不变，缓存命中接近免费，将部分负载从白天引导到夜间低谷期，提高GPU整体利用率，降低单位成本。

到了Agent时代，算力问题更棘手。Agent干活时大量token用于重复搬运信息，多个Agent协作时效率更低。谷歌的A2A协议和Anthropic的MCP协议旨在解决这些问题，MCP让单个Agent内部复用上下文，A2A让多个Agent之间共享成果，减少无效推理。

效率优先不仅是企业的需求，用户需求也在分化。衡量市场AI付费意愿的LLM Token支出指数持续走低，用户加速离开昂贵的前沿模型，转向性价比高的轻量级和MoE模型。Citadel Securities判断，前沿人工智能和"日常"人工智能的使用出现分化迹象，前沿AI追求智能上限，日常AI追求极致效率，不能用同一标准衡量。这并非说前沿模型不重要，头部大模型仍会追求智能上限，但多数场景可选择性价比更高的模型，就像公司不会让首席分析师接前台电话，模型使用也应避免资源浪费。效率优先实现后，企业和用户都能受益，企业降低单次推理成本，利润增加，还能降价吸引更多用户，形成正向循环。

做人人可用的AI

这段时间，除了To C端AI产品涨价，巨头们也在缩减内部员工的token使用量。微软取消内部的Claude Code许可，让员工使用自家更便宜的Copilot CLI；亚马逊要求员工不要为用AI而用AI；Meta撤下内部的token消耗排行榜。这使得员工被迫学习最大化利用token，懂行的工程师能通过精简提示词、控制上下文长度等降低AI账单，但普通用户难以读懂省token的技术帖子，也不知道如何控制token使用，可能一直在为远超实际需要的算力买单。

这个落差不应由用户承担，如何高性价比使用AI应从用户层面转移到机制层面。理想情况是，用户无需了解背后有几种模型运行，系统能根据任务简单或复杂程度选择合适的模型，就像使用搜索引擎无需知道有多少台服务器响应。只有这样，普通用户才能从AI技术中受益。技术的价值在于触达多少人，如果AI不能为人人所用，就只是精英的狂欢，就像电力未普及到每个家庭、互联网未覆盖每个县城时一样。效率优先不仅是商业命题，更是技术平权问题，AI正站在普及的关键节点，效率优先就是推开这扇门的力量。

AI商业化落地两头堵，效率优先能否推开普及之门？

AI收费时代来临

商业化落地两头堵

让每一分算力都花得值

做人人可用的AI

Audacity AI音频效果插件完全指南：从零基础到专业应用

2026最新2款AI编程助手平替实测｜vibe coding功能深度对比合集

TP-LINK 提前批完整流程面经：从一面到四面，技术、背景和匹配度都看得很细

成都专业的暖通商家有哪些

企业AI编排实战：MuleSoft+LangChain构建可审计可治理的AI流水线

lattice软件遇到问题大集合