news 2026/5/10 13:44:38

前 OpenAI 联合创始人 Andrej Karpathy:过去几周使用 Claude Code 的一些真实体会

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
前 OpenAI 联合创始人 Andrej Karpathy:过去几周使用 Claude Code 的一些真实体会

Andrej Karpathy是全球 AI 顶尖专家,OpenAI 创始成员,曾任 Tesla AI 总监领导 Autopilot 研发。他师从李飞飞,创办了斯坦福 CS231n 课程,并在 2024 年成立 Eureka Labs 投身 AI 教育。作为硬核开发者,他擅长将复杂技术深入浅出地拆解,是连接顶层研究与工程实践的灵魂人物。

2025 年末编程范式转移:从“手动挡”到“代理驾驶”

过去几周,深度使用 Claude 编程让我产生了一些零散但深刻的感悟。

1. 工作流的剧变:从 80% 手动到 80% 代理

随着 LLM 编程能力的再次飞跃,我的工作流在短短几周内发生了翻天覆地的变化:

  • 11月:80% 手动/补全 + 20% Agent 协作。
  • 12月:80% Agent 编程 + 20% 人工微调。

我现在几乎是在用英语编程——略带羞愧地用文字“指挥”LLM 写代码。虽然这有点伤自尊,但在软件开发中以“大型代码动作 (Large Code Actions)”为单位进行操作的效率实在太高了。这是我 20 年编程生涯中最剧烈的一次工作流变革。

2. 现实检查:IDE 仍不可或缺,Agent 并非万能

尽管“Agent 集群”呼声很高,但我认为目前的某些吹捧过头了:

  • 脆弱性:模型依然会犯错,且错误从“语法错误”转向了“隐蔽的逻辑错误”。它们像是一个手脚麻利但粗心大意的大三实习生。
  • 自以为是:Agent 常会在不确认的情况下替你做错误假设,且不擅长管理混乱、不寻求澄清、不主动暴露不一致性,表现得过于讨好(Sycophantic)。
  • 代码膨胀:它们倾向于把 API 和架构搞复杂。有时会为了一个简单功能写 1000 行脆弱的代码,直到你反问:“不能直接这样写吗?”它们才恍然大悟缩减到 100 行。
  • 最佳实践:建议左屏开启终端(如 Ghostty)跑 Agent Session,右屏开启大型 IDE 像鹰一样盯着代码库,随时进行人工干预。

3. 核心优势:坚韧性 (Tenacity) 与 杠杆 (Leverage)

  • 耐力瓶颈的突破:Agent 从不疲倦或沮丧。看着它为一个难题折腾 30 分钟最终获胜,是一种“感受到 AGI”的时刻。体力/意志力不再是工作的瓶颈。
  • 从指令到声明:不要告诉它“怎么做”,要给它“成功标准”。
  • 先写测试,再让它通过测试。
  • 配合浏览器 MCP(Model Context Protocol)使用。
  • 声明式编程:改变你的思维方式,从“过程式指令”转为“声明式目标”,让 Agent 自行循环尝试。

4. 速度与能力的双重扩张

AI 带来的不仅仅是“加速”,更是“扩张”:

  1. 边际成本降低:以前觉得“不值得写”的工具或功能,现在随手就能实现。
  2. 打破技能边界:以前因为知识储备或技术栈限制而不敢碰的代码领域,现在可以轻松介入。

深度反思:工程师的未来

编程是变有趣了还是枯燥了?

我认为编程变得更有趣了,因为填补空白的琐碎体力活消失了,剩下的全是创造性部分。

暴论:LLM 编程将分化工程师群体——那些热衷于“写代码”的人可能会感到失落,而那些热衷于“构建产品”的人将如鱼得水。

技能萎缩与“屎山”危机

  • 能力退化:我发现自己的手动编码能力正在退化。“生成(写)”和“判别(读)”是不同的脑部功能,我们可以像顶级评论员一样审阅代码,但手感正在变生。
  • Slopacolypse(垃圾信息末日):预感 2026 年将是数字内容的“崩坏之年”。GitHub、Substack、arXiv 将充斥着大量 AI 生成的平庸内容(Slop),生产力幻觉将与真实的进步并存。

待思考的问题

  • 10倍程序员:顶尖与平庸程序员的产出比是否会从 10 倍拉大到 100 倍?
  • 全才 vs 专才:既然 LLM 擅长微观执行,通才是否会凭借宏观战略能力彻底碾压专才?
  • 未来感:未来的编程更像是玩《星际争霸》、《异星工厂》还是在演奏乐器?

总结:2025 年 12 月是一个分水岭,LLM Agent 的连贯性跨越了某个临界点。现在的逻辑能力(Intelligence)已经远超现有的工具集成和组织流程。2026 年将是全行业消化、吸收这一新能力的“高能时刻”。

原文:https://x.com/karpathy/status/2015883857489522876[1]

参考阅读:

  • Clawdbot 评测:梦寐以求的 AI 助手,但你可能还不该用它

  • 扩展 PostgreSQL,以支撑 8 亿 ChatGPT 用户

  • 无限代码危机!奈飞AI工程师曝自家上下文工程秘诀:三阶段方法论!AI不能理解软件为什么会失败!每一代工程师都会撞上一堵墙!

References
  1. https://x.com/karpathy/status/2015883857489522876
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 1:03:12

小白也能懂的语音识别:Fun-ASR保姆级使用教程

小白也能懂的语音识别:Fun-ASR保姆级使用教程 你有没有过这样的经历:会议录音存了一堆,却懒得听;采访素材录了三小时,整理文字要花一整天;客服通话成百上千条,想查某句关键话得翻到眼花&#x…

作者头像 李华
网站建设 2026/5/9 9:36:33

超实用零基础创意生日祝福网页制作指南

超实用零基础创意生日祝福网页制作指南 【免费下载链接】happy-birthday Wish your friend/loved-ones happy birthday in a nerdy way. 项目地址: https://gitcode.com/gh_mirrors/ha/happy-birthday 想给朋友准备一份特别的生日惊喜?生日祝福网页是个不错的…

作者头像 李华
网站建设 2026/5/9 10:46:40

BGE-M3实战入门:curl命令行调用、Postman配置、Swagger接口文档生成

BGE-M3实战入门:curl命令行调用、Postman配置、Swagger接口文档生成 1. BGE-M3模型简介 BGE-M3是由113小贝二次开发构建的句子相似度模型,它是一个专为检索场景设计的"三合一"文本嵌入模型。这个模型的核心特点可以用一句话概括:…

作者头像 李华
网站建设 2026/5/6 0:43:12

STM32 OTG音频设备应用项目实战

以下是对您提供的博文内容进行深度润色与工程化重构后的版本。我以一位深耕嵌入式音频多年、亲手调通过数十款STM32UAC2方案的工程师视角,重新组织逻辑、强化实战细节、剔除AI腔调,并注入真实开发中踩过的坑、验证过的参数、调试时的心得——让这篇文章读…

作者头像 李华
网站建设 2026/5/9 4:55:44

XInputTest控制器性能检测工具全面解析与实战指南

XInputTest控制器性能检测工具全面解析与实战指南 【免费下载链接】XInputTest Xbox 360 Controller (XInput) Polling Rate Checker 项目地址: https://gitcode.com/gh_mirrors/xin/XInputTest XInputTest作为专业的Xbox 360控制器性能检测工具,为游戏开发者…

作者头像 李华
网站建设 2026/5/10 7:45:32

2分钟部署VibeThinker-1.5B:开发者实测推荐镜像方案

2分钟部署VibeThinker-1.5B:开发者实测推荐镜像方案 1. 为什么这款小模型值得你花2分钟试试? 你有没有遇到过这样的情况:想快速验证一个算法思路,却要等大模型加载半天;想在本地跑个数学推理任务,发现显存…

作者头像 李华