news 2026/7/3 3:19:19

AI商业化落地两头堵,效率优先能否推开普及之门?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI商业化落地两头堵,效率优先能否推开普及之门?

AI收费时代来临

上周,豆包正式开始收费,推出专业版并分成三档价格,最高级套餐包年费用达5088元。紧接着,以"价格屠夫"闻名的DeepSeek也要更换计价方式,实行新的峰谷定价模式,每天上午9点到12点、下午2点到6点为高峰,调用成本翻倍。ChatGPT今年2月初往免费用户对话框塞广告,上星期在法国大举招商,广告推送密度增加。白嫖AI的时代似乎即将结束,去年各家还在打价格战,如今都在思考如何让AI生意不再亏损。

商业化落地两头堵

一家AI公司想赚钱,要么多收钱,要么少花钱,但现在这两条路都被堵住了。过去几年,大家遵循互联网打法,疯狂烧钱拉用户,认为用户规模够大成本自然摊薄。然而,AI产品更接近制造业逻辑,用户规模增加,算力成本也随之上升,因为AI成本是刚性的,多一个用户提问,模型就要进行一次推理,消耗一次算力。月活用户9亿的OpenAI去年净亏损385亿美元,今年第一季度情况仍未改善,每收入1美元就要赔1.22美元。豆包日均token调用量达180万亿,日收入却不足100万元。

另一方面,算力供给是稀缺资源,导致算力价格居高不下,总成本降不下来。算力供给的约束是难以突破的物理墙,一是电,Gartner预测2030年全球数据中心用电量将超1200TWh,电网供电无法满足需求;二是芯片,全球高阶AI芯片的先进封装几乎全靠台积电,但台积电产能扩得再快,英伟达一家就能吃掉六成以上,剩下四成还要被几十家公司争抢,有钱也排不上号。

此外,AI形态正从一问一答的Chatbot转向需要持续运行的Agent,这对算力的需求是数量级的跃升。所以,算力成本面临双重夹击,调用量增加成本就增加,规模无法摊薄成本,供给又无法满足需求,成本降不下来。那么涨价多收钱可行吗?

在To B的生产力场景,提价没问题,因为客户看重解决复杂专业问题的能力,企业能接受高成本。但在To C场景,情况不同。2025年ChatGPT的9亿周活跃用户中,个人订阅用户约5000万,占比仅约5%,国内用户付费意愿更低,长期受"免费+广告"互联网模式影响,没有养成为独立软件付费的习惯,5月初豆包试水订阅时,"豆包 笨还收费"就冲上了热搜。普通用户对To C的AI产品没有忠诚度,提价甚至从免费到付费都会赶跑大量用户。

那么企业面临的问题是:在AI完成同等任务时,能否消耗更少的算力资源?这就是整个行业目前都在做的事:效率优先。

让每一分算力都花得值

从硬件层到模型架构,行业各层都在围绕效率思路开展工作。在硬件层,英伟达今年在GTC大会上推出了基于Groq技术授权打造的LPU新芯片,专门优化AI推理场景。GPU擅长高并发大规模计算,多用于大模型预训练以提高智能上限,而LPU像精锐小队,擅长快速完成任务,日常面向普通用户的推理场景,响应快、省钱才是性价比最高的。

芯片之上是模型架构,MoE(混合专家架构)成为主流,其优点是模型总参数可堆到万亿级别保证脑容量,但每次只激活一小撮参数,做到又强又省。比如DeepSeek V4 Pro总参数1.6万亿,每次只激活490亿,编码能力逼近顶级闭源模型,输出价格只有GPT - 5.5的八分之一。腾讯开源的hy3 preview也是类似思路,295B参数、激活仅21B,能力接近300B级模型,成本却是20B级别,上了OpenRouter后开发者纷纷使用。腾讯灰度内测的AI助手小微背后的模型WeLM总参数800亿,每次只激活30亿,激活率低至3.75%,比国内极致成本性能代表DeepSeek - V4 - Flash(激活率4.6%)还要低。由于微信月活14亿,一旦"小微"全量开放,推理量巨大,所以小微绝大多数日常请求交给WeLM,碰上难题有合作模型兜底。

在模型运行过程中,还可通过工程手段榨取算力,如DeepSeek等使用的KV缓存复用,即与AI反复聊同一话题时,系统提示词、常用前缀等重复内容无需每次从头计算,直接调用上次结果。DeepSeek还通过价格杠杆优化算力调度,新计价方式下平峰时段价格不变,缓存命中接近免费,将部分负载从白天引导到夜间低谷期,提高GPU整体利用率,降低单位成本。

到了Agent时代,算力问题更棘手。Agent干活时大量token用于重复搬运信息,多个Agent协作时效率更低。谷歌的A2A协议和Anthropic的MCP协议旨在解决这些问题,MCP让单个Agent内部复用上下文,A2A让多个Agent之间共享成果,减少无效推理。

效率优先不仅是企业的需求,用户需求也在分化。衡量市场AI付费意愿的LLM Token支出指数持续走低,用户加速离开昂贵的前沿模型,转向性价比高的轻量级和MoE模型。Citadel Securities判断,前沿人工智能和"日常"人工智能的使用出现分化迹象,前沿AI追求智能上限,日常AI追求极致效率,不能用同一标准衡量。这并非说前沿模型不重要,头部大模型仍会追求智能上限,但多数场景可选择性价比更高的模型,就像公司不会让首席分析师接前台电话,模型使用也应避免资源浪费。效率优先实现后,企业和用户都能受益,企业降低单次推理成本,利润增加,还能降价吸引更多用户,形成正向循环。

做人人可用的AI

这段时间,除了To C端AI产品涨价,巨头们也在缩减内部员工的token使用量。微软取消内部的Claude Code许可,让员工使用自家更便宜的Copilot CLI;亚马逊要求员工不要为用AI而用AI;Meta撤下内部的token消耗排行榜。这使得员工被迫学习最大化利用token,懂行的工程师能通过精简提示词、控制上下文长度等降低AI账单,但普通用户难以读懂省token的技术帖子,也不知道如何控制token使用,可能一直在为远超实际需要的算力买单。

这个落差不应由用户承担,如何高性价比使用AI应从用户层面转移到机制层面。理想情况是,用户无需了解背后有几种模型运行,系统能根据任务简单或复杂程度选择合适的模型,就像使用搜索引擎无需知道有多少台服务器响应。只有这样,普通用户才能从AI技术中受益。技术的价值在于触达多少人,如果AI不能为人人所用,就只是精英的狂欢,就像电力未普及到每个家庭、互联网未覆盖每个县城时一样。效率优先不仅是商业命题,更是技术平权问题,AI正站在普及的关键节点,效率优先就是推开这扇门的力量。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/3 3:18:34

Audacity AI音频效果插件完全指南:从零基础到专业应用

Audacity AI音频效果插件完全指南:从零基础到专业应用 【免费下载链接】audacity Audio Editor 项目地址: https://gitcode.com/GitHub_Trending/au/audacity 在人工智能技术飞速发展的今天,Audacity作为全球最受欢迎的开源音频编辑软件&#xf…

作者头像 李华
网站建设 2026/7/3 3:16:21

2026最新2款AI编程助手平替实测|vibe coding功能深度对比合集

2026最新2款AI编程助手平替实测|vibe coding功能深度对比合集这篇文章不按工具逐个介绍,而是按开发者的真实一天来组织:从早上改bug到晚上写新功能,5款工具在每个环节的表现。作为CS研二在读实习生,我深度使用 TRAE Wo…

作者头像 李华
网站建设 2026/7/3 3:13:34

成都专业的暖通商家有哪些

在成都,暖通系统对于打造舒适家居环境至关重要。不过,暖通行业存在不少痛点,我们团队在实践中发现,市面上多数产品气候适配性差,像五恒系统在潮湿地区除湿能力弱,夏季室内闷热、易结露滋生霉菌,…

作者头像 李华
网站建设 2026/7/3 3:09:26

企业AI编排实战:MuleSoft+LangChain构建可审计可治理的AI流水线

1. 项目概述:当企业级集成遇上大模型,为什么“拼积木”式AI落地正在失效我在金融行业做系统集成顾问整十年,前年带团队给一家全国性银行做智能风控助手,当时的想法特别朴素:把行内核心系统、反洗钱平台、客户画像库的数…

作者头像 李华
网站建设 2026/7/3 3:04:02

lattice软件遇到问题大集合

1.布局布线策略遇到主机号和内核不对,根据AI建议修改文件首先正常 FPGA 工程策略 不需要绑定电脑主机号 。## 这个设置是干什么的? 它是为了 多机 / 多节点 PAR 加速 用的。比如公司有几台机器: PC_A PC_B PC_C可以配置节点列表,让…

作者头像 李华