四年,从30秒到12小时
Clark的核心论据是一批能力进展曲线。METR是专注AI能力评估的机构,追踪AI系统独立完成任务在50%成功率水平线上,熟练人员完成该任务所需时间。2022年,GPT - 3.5需30秒;2023年,GPT - 4推到4分钟;2024年,o1到40分钟;2025年,GPT - 5.2(高配版)达6小时;2026年,Claude Opus 4.6到12小时,四年翻了1440倍!AI能力研究员Ajeya Cotra认为,2026年底前该数字有望突破100小时,达到后能覆盖许多多日级软件/研究辅助任务。
编程能力同样也在起飞
SWE - Bench衡量AI解决真实GitHub工程问题的能力,2023年底Claude 2得分2%,今年Claude Mythos Preview达93.9%,基本打穿基准。CORE - Bench测试AI独立复现论文实验结果的能力,2024年9月推出时最好成绩21.5%,2025年12月Opus 4.5在Claude Code scaffold下verified accuracy为77.78%,人工校验后为95.5%,项目方称已解决。MLE - Bench测AI独立参加Kaggle竞赛能力,覆盖75个真实比赛项目,2024年10月发布时最高分16.9%,2026年2月Gemini 3加搜索工具组合达64.4%。Anthropic内部测试让模型优化仅使用CPU的小型语言模型训练代码,2025年5月Claude Opus 4为2.9倍;2025年11月Opus 4.5为16.5倍;2026年2月Opus 4.6为30倍;2026年4月Claude Mythos Preview为52倍,不到一年从2.9倍涨到52倍。
99%的工程活,AI快接完了
AI研究中纯工程与真正创意占比是关键问题,Clark引用爱迪生名言,认为AI研究也是1%灵感和99%汗水。典型AI研究循环中,大部分工作如数据清洗、跑实验等是“汗水”。偶尔有Transformer架构、混合专家模型(MoE)等改变范式的发明,但只占1%且非瓶颈,99%工程工作正被AI快速接管。AI已能管理其他AI,Claude Code、OpenCode里单个AI可扮演“项目经理”。PostTrainBench测试AI微调开源小模型提升表现的能力,截至2026年3月,AI系统能达人类研究员效果一半左右,约25% - 28%提升幅度,人类基线是51%。Anthropic内部“自动化对齐研究”概念验证中,AI给出方案超人类研究员基线。Clark判断AI已能自动化AI工程绝大部分。
质疑声也来了
Clark帖子发出后行业有质疑。华盛顿大学机器学习教授、《终极算法》作者Pedro Domingos称从LISP在50年代发明以来AI就能构建自己,但过程收益存疑。有人质疑RSI概念边界,@crepesupreme指出2027 - 2028年概率跳升30个百分点意味着有不连续能力事件。Clark回应AI研究需创意突破才能进入“自我研发”循环,这是2027年概率低的原因,若2028年底前缺口补上概率升为60%,他强调预判的是概率而非确切时间点。还有人问为何用公开数据,Clark称公开数据有可信度,要的是可独立核验的结论。
窗口还开着,但在缩窄
Clark认为不给2027年更高概率是因AI研究对创意直觉有要求,目前只有“诱人的早期信号”,无系统性突破。他列举Gemini模型攻克Erdős数学问题和AI在发现新数学证明中的作用为早期信号。若2028年底未出现他描述的情况,说明当前技术路径有能力天花板,需人类创意突破。Anthropic在2026年3月宣布成立The Anthropic Institute时提出AI递归自我改进发生后的告知和治理问题,自身也无完整答案。Clark还给出对齐技术准确率随递归迭代下降的担忧,认为治理窗口有限且在缩窄。据奥特曼直播及媒体报道,OpenAI目标是2026年9月前让AI达“AI研究实习生”水平,2028年达更完整自动化研究员;Anthropic发表自动化对齐研究概念验证;Recursive Superintelligence完成5亿美元融资,目标之一是自动化AI研究,行业正朝此方向加速。