2025年大模型领域迎来六大突破性趋势:RLVR训练让LLM自主演化推理能力;锯齿智能展现数学/代码与常识能力的极不均衡;Cursor证明垂直编排应用更具商业价值;Claude Code开创本地Agent新范式;Vibe Coding使编程从专业技能变为大众创作;GUI革命推动LLM向视觉化交互转变。这些趋势正在重塑AI与编程开发的未来,释放巨大潜力。
2025 年是大型语言模型领域取得重大进展、充满转折的一年。以下是Karpathy认为值得注意且略带惊喜的**“范式转变”**——那些真正改变格局、在概念上脱颖而出的东西。":
- RLVR训练:通过可验证奖励让LLM自主"演化"出推理能力,吞噬预训练算力
- 锯齿智能:在数学/代码等领域尖峰突进,常识领域却如"小学生",极不均衡
- 应用层崛起:Cursor模式证明垂直编排比通用模型更接近商业价值
- 本地Agent:Claude Code以"生活在电脑上的精灵"形式,比云端方案更务实
- Vibe Coding: 代码成为"免费、临时、可塑"的媒介 ,编程从专业技能变为大众创作
- GUI革命(Nano banana):文本交互过时,LLM需以图像/信息图等视觉形式输出
1.基于可验证奖励的强化学习(RLVR)
1.1演变历史
2025 年初,所有主流实验室的大型语言模型生产流程大致遵循以下步骤:
- 预训练(约 2020 年的 GPT-2/3 范式)
- 监督式微调(约 2022 年的 InstructGPT)
- 基于人类反馈的强化学习(约 2022 年的 RLHF)
LLM后训练技术演变
1.2 RLVR-LLM强化学习的新趋势
这曾是一段时间内训练生产级大语言模型的稳定配方。2025 年,基于可验证奖励的强化学习作为一项新增的核心阶段强势崛起。
通过在多个可自动验证的环境中训练 LLM 以获得奖励,模型自发地演化出对人类而言类似“推理”的策略。这些策略在以往的范式中很难实现,因为模型必须通过优化奖励,自行探索出有效的路径。
RLHF和DPO是近年来用于人类对齐的两种主要强化学习方法。相比之下,RLVR代表了LRMs强化学习的一个新兴趋势,显著增强了它们解决复杂任务的能力
过去三年选定的长思维链发展路径(Long CoT)的演变,其中不同颜色的分支代表不同的特征:深度推理、可行反思和广泛探索。每个特征又进一步细分为几个关键领域:深度推理包括其形式和学习方法。可行反思侧重于反思过程中的反馈和改进技巧,作为优化策略。广泛探索则关注扩展性、内部探索和外部探索,作为长认知能力发展路径的关键改进。
不同于计算量相对较小的 SFT 和 RLHF 微调阶段,RLVR 针对客观的奖励函数进行长时间优化,其高性价比吞噬了原本计划用于预训练的大量算力。这一新范式还带来了一个新“旋钮”:通过生成更长的“思考”链,可以用测试时的计算量来换取模型能力的提升。
2.幽灵 vs. 动物 / 锯齿状智能
2025 年,我(以及整个行业)开始更直观地理解 LLM 智能的“形状”。我们并非在“演化动物”,而是在“召唤幽灵”。LLM 的优化目标与人类心智截然不同,导致其能力呈现令人惊讶的“锯齿状”:在数学、代码等可验证领域表现卓越,近乎天才;而在一些常识或逻辑领域,却可能像易受欺骗的小学生。
人类智能:蓝色,人工智能智能:红色。我喜欢这个版本的梗图,因为它指出了人类智能也存在着自身独特的缺陷
与此同时,我对 2025 年的基准测试普遍失去了信任。因为基准本质是可验证的环境,极易通过 RLVR 或合成数据等针对性优化“刷榜”,形成局部的能力尖峰,而非真正的通用智能。
- Cursor / LLM 应用新层级
Cursor 最引人注目的地方在于,它清晰地揭示了一个新的“LLM 应用”层级。这类应用为特定垂直领域深度定制:
- 进行上下文工程。
- 在幕后将多个 LLM 调用编排成复杂的有向无环图(DAG,平衡性能与成本。
- 提供领域特定的图形用户界面和“自主性滑块”。
cursor核心模块,推测
执行过程,推测
我个人认为,
LLM 基础模型会培养出“通才”,而 LLM 应用则将通过私有数据、工作流和反馈循环,将这些“通才”组织、微调成特定领域的“专业团队”。
- Claude Code / 存在于你电脑的 AI
Claude Code 首次令人信服地展示了 LLM 智能体的形态:以循环方式串联工具使用与推理,解决复杂问题。其关键创新在于完全在本地运行,直接接入用户现有的环境、数据和上下文。
claude code架构
claude code执行流程
这里的关键区别不在于运算发生在云端还是本地,而在于是否与用户已有的数字生活(包括已安装的软件、配置、密钥和低延迟交互)无缝融合。Anthropic 把握住了这一精髓,将 CC 打包成极简的命令行工具,改变了 AI 的交互范式——它不再是一个需要访问的网站,而是一个“居住”在你电脑中的智能体。
5.Vibe Coding
2025 年,AI 跨过了能力门槛,使得仅通过自然语言描述就能构建复杂程序成为可能。我将其称为“vibe coding”。编程不再仅仅是专业开发者的专属,任何人都可以通过描述想法来创造软件。
vibe coding演变历史
Vibe Coding 中三元协作关系示意图——开发者提出指令,代理基于项目上下文生成结果,通过迭代反馈实现目标对齐
vibe coding不仅赋能大众,也极大地提升了专业开发者的效率,促使他们编写大量以往因成本过高而不会去写的工具代码。
代码变得免费、临时、可塑、即用即弃,这将深刻改变软件的面貌和开发者的工作性质。
6.Nano banana / LLM 的图形用户界面革命
我认为 LLM 是继个人电脑、互联网之后下一个核心的计算范式。正如计算机交互从命令行演进到图形界面,LLM 的交互也将从纯文本对话,转向人类更偏好的视觉化、空间化形式——如图像、信息图、演示文稿乃至交互式应用。
谷歌的 Gemini Nano banana 模型是这一趋势的早期信号。其重要意义不仅在于图像生成能力本身,更在于文本生成、图像生成与世界知识在模型内部的深度融合与联合能力。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。