1️⃣ 趋势一:算力基建化:数据中心需求狂飙,算力经济是智能产业第一大引擎
- 算力 ≈ 电力 / 高速公路
- 核心不再是“有没有 GPU”,而是:
- 数据中心选址
- 能耗、散热
- 调度效率
- 对工程的影响:算力调度、推理性价比 > 模型参数量
- 对应岗位:AI Infra Engineer /ML Platform Engineer/推理平台工程师/大模型系统工程师/GPU 调度 / 资源管理工程师/AI 云平台工程师(腾讯云 / 阿里云 / 华为云)
2️⃣ 趋势二:芯片AI化:AI原生需求重塑芯片创新,大市场大生态打开时代芯机遇
- 芯片层面,GPU主导地位受到挑战,NPU在端侧普及,ASIC/FPGA迎来增长。
- GPU 仍然重要,但不再适合所有场景
- 端侧:手机、PC、车机、摄像头、可穿戴设备等用户“手边”的设备。用的是NPU
- 特定任务(推理 / 视频 / 搜索):用ASIC / FPGA更省钱
- 对应岗位:AI 系统 / 推理平台 / 芯片适配工程师
| 维度 | CPU | GPU | NPU |
|---|---|---|---|
| 设计目标 | 通用计算 | 并行计算 | 神经网络推理 |
| 灵活性 | ⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐ |
| 功耗 | 高 | 高 | 低 |
| 延迟 | 中 | 中 | 低 |
| 能效比 | 低 | 中 | 高 |
| 适合场景 | 系统 / 逻辑,服务器 / PC | 训练 / 大推理(数据中心) | 端侧推理(手机 / PC / 车 / IoT) |
| 👉 重点不是“谁性能最强”,而是 | |||
| 谁能把模型 → 芯片 → 系统跑顺 | |||
3️⃣ 趋势三:预训练决定大模型格局梯队,架构创新决定预训练水平
为什么现在大家都不再疯狂堆参数了?因为遇到了两个“硬天花板”:算力贵Attention 的计算复杂度炸了
- MoE = Mixture of Experts(专家混合) 成为现实主流(大参数、小激活)👉“参数规模很大,但计算成本不大”
- AttentionO(n2)O(n^2)O(n2)是硬瓶颈;nnn= token 数(上下文长度), 每个 token要和所有 token算相关性;
- Attention = 模型在一堆信息里,学会“该重点看谁、不看谁”的机制。本质就是:算相关性 → 加权求和。
- 👉 token 一多:显存爆 延迟爆 成本爆
- 📌 这就是为什么:长文本 视频理解 多模态特别难做
- 稀疏(只算“重要 token)/ 线性(把O(n2)O(n^2)O(n2)近似成O(n)O(n)O(n)) / 新架构(完全不同的序列建模方式)正在抢 Transformer 的地盘
- 🔹「预训练决定梯队」:有没有足够的数据、有没有足够的算力、有没有完整训练流程
👉结论:
未来不再是“谁模型最大”,而是谁在同样算力下学得更多
4️⃣ 趋势四:大模型落地进入推理时间,推理需求倒逼模型创新
- 2023–2024:训练竞赛
- 模型在多模态深度推理、自适应推理、边缘推理加速等方面持续突破,任务复杂度推动推理框架持续进化
5️⃣ 趋势五:信息AI应用期,物理AI研发期,具身智能成合流风口
- ChatGPT → 信息 AI(已经成熟)
- 机器人 / 世界模型 → 物理 AI(还在研发)
物理AI与具身智能迎来研发热潮,世界模型与VLA(视觉-语言-动作)框架成为技术焦点,具身智能正从小规模商业订单走向更广泛的应用探索。 - ChatGPT → 信息智能
- 机器人 / 世界模型 → 物理智能
- VLA(Vision-Language-Action)是关键框架:看懂世界(Vision)理解指令(Language) 做出动作(Action)
| 方向 | 技术成熟度 | 岗位数量 | 适合你吗 |
|---|---|---|---|
| 信息 AI / 搜索 / Agent | ⭐⭐⭐⭐⭐ | 很多 | ✅ 非常 |
| 推理系统 / 平台 | ⭐⭐⭐⭐ | 多 | ✅ |
| 物理 AI / 具身 | ⭐⭐ | 很少 | ❌ 暂时 |
| 世界模型 | ⭐⭐ | 极少 | ❌ |
| 工业机器人 | ⭐⭐⭐ | 稳定 | ⚠️ 非主线 |
👉 短期别被“机器人”热度迷惑
这是中长期方向,不是立刻落地红利
6️⃣ 趋势六:AI重塑流量入口:PC互联网、移动互联网、Agentic互联网
历史三代入口:
- PC 互联网:网页 + 搜索引擎
- 移动互联网:App + 信息流
- Agentic 互联网:对话 + Agent + 自动执行
- AI正在重塑流量入口。Agent从“人找服务”转向“服务找人”,成为下一代交互范式。AI智能体具备感知、规划、决策、执行的闭环能力,正逐步取代传统App,操作系统亦向超级Agent演进。
- 而构建这类智能助手的关键之一,在于其对用户个性化知识的理解与调用。以腾讯推出的ima知识库为例,它允许用户将碎片化的资料、笔记、网页内容构建成个人或团队的专属知识库,并与大模型深度结合。这使得AI不仅能回答通用问题,更能利用用户自身的知识储备,成为真正懂用户的“第二大脑”。这种“知识即能力”的模式,正是Agent实现深度个性化服务、从“通用”走向“专用”的重要基石。
7️⃣ 趋势七:多模态成AI应用落地关键:视频、3D、代码依次展现生产力
| 文本 → 图像:已成熟(CLIP 时代完成) | 已经完成的事: - 图文对齐(CLIP / ALIGN / Chinese-CLIP) - 以图搜图、图文互搜 - embedding 成为统一索引 📌这一阶段已经是“工程成熟期” |
|---|---|
| 图像 → 视频:进入规模化落地期(重点) | ✅ 视频不再是“一堆帧”,而是: -时序语义对象 -可被索引的多模态实体 技术变化: - 视频 →关键帧 + 轨迹 - 视频 embedding ≠ 帧 embedding 的简单平均 - 引入: - Temporal Attention - Segment-level embedding 📌视频搜视频 / 视频搜图 已开始规模化 |
| 视频 → 3D:刚进入工程探索期(前沿) | 从「找图片」 → 「找空间 / 场景 / 物体布局」 |
| 多模态 → 代码:生产力爆发点(但不是图搜主线) |
多模态的真正价值,不在“支持更多输入”,而在“让感知数据成为搜索系统的一等公民”。
在图搜场景中,图像不再是输入方式,而是核心数据形态。
8️⃣ 趋势八:AI硬件百端齐放:PC手机汽车眼镜玩具,焕脑正当时
- PC / 手机 / 车 / 眼镜 / 玩具
- 端侧 AI 解决三件事:
- 隐私
- 延迟
- 成本
👉 但别误判:
端侧 AI ≠ 不需要云
而是端云协同
9️⃣ 趋势九:AI4S突破加速AGI实现,AI数理化触及博士水平
- AI for ScienceAGI(Artificial General Intelligence,通用人工智能)= 能像人类一样,在不同领域“自主理解、学习、推理、迁移”的智能系统。
- 在材料、化学、生物、医疗等领域,AI已能自主设计实验、预测蛋白质结构、发现新材料、甚至从病理图像中精准预测基因突变,其复杂问题解决能力已触及博士水平。这一趋势不仅极大加速了科研进程,其所需的深度推理、跨学科整合与自主探索能力,也被视为通向AGI的关键路径。
👉 这条线: - 不直接影响你短期工作
- 但会深刻改变科研范式
🔟 趋势十:开源AI进入中国时间,AGI拥有中国路线
这是整篇报告最有立场的一点:
- 中国优势不在闭源模型
- 而在:
- 开源
- 应用规模
- 国产算力
- 工程能力
👉AGI ≠ 只有一条美国路线
这份报告「哪些地方要打个问号?」
⚠️ 1. 有明显“大会叙事 + 国家叙事”色彩
- “中国路线”“中国时间”是趋势判断,不是事实结论
- 不代表中国一定领先 AGI,只是路径不同
⚠️ 2. “Agent 取代 App”被说得有点快
现实中:
- App ≠ UI
- App = 数据 / 权限 / 商业闭环
更可能的形态是:
Agent + App + API 共存
⚠️ 3. 具身智能被包装得偏“热”
- 技术很前沿
- 商业落地周期长
- 不适合普通工程师短期 All-in