news 2026/2/6 12:21:15

AI能力进化还在狂飙!Epoch数据洞察打破人们对AI进化减缓的预期

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI能力进化还在狂飙!Epoch数据洞察打破人们对AI进化减缓的预期

Epoch AI最新发布的监测数据显示,AI能力进化还在狂飙。

这与METR的时间跨度基准(Time Horizon benchmark)得出的加速结论遥相呼应。

2024年4月,全球AI综合能力的增长速率在这一刻暴涨了90%。同年10月,METR的时间跨度基准出现40%加速。

在过去的两年里,AI模型在Epoch能力指数(Epoch Capabilities Index,ECI)上的得分增长速度,几乎是此前两年的两倍。

为了提供更多数据,Epoch包含了2023年前的模型,但当时基准分数相对稀少。排除这些数据,核心结论依然坚如磐石:我们正处在AI的加速坡道上。

这种剧烈的非线性跃升,打破了人们对于技术进步通常呈现S型曲线末端边际效应递减的预期。

这两组独立数据的共振揭示:随着推理模型(Reasoning Models)的崛起和强化学习(RL)在顶级实验室的普及,我们正处于一个新的加速周期之中。

Epoch AI与METR

在AI日新月异的今天,如何公平地衡量一个模型的智力,其难度不亚于制造模型本身。

Epoch AI是一家非营利性研究机构,专注于预测和跟踪AI的发展轨迹。

他们不直接开发大模型,而是作为第三方的裁判员,致力于用严谨的数据和统计学方法,为AI的进步建立坐标系。

其资金来源于Open Philanthropy等慈善机构,这保证了其研究的独立性和客观性。

METR(Model Evaluation and Threat Research,原ARC Evals)是一个专注于AI安全评估的研究组织,更侧重于从安全和自主性角度评估AI。

他们的核心关注点不是AI知道什么,而是AI能独立做什么以及能做多久。

这两个机构推出的核心指标——Epoch Capabilities Index (ECI)METR Time Horizon,正是目前能够捕捉到这波技术加速浪潮的精密仪器。

ECI:AI能力的罗塞塔石碑

Epoch Capabilities Index (ECI) 是为了解决AI评估界的一个顽疾:基准测试的通货膨胀与碎片化。

在过去,一个新出的基准测试(如MMLU)往往在几个月内就会被模型刷爆——得分迅速接近100%,从而失去区分度。这导致我们无法用同一套试卷去衡量跨度几年的模型。

ECI引入了心理测量学中的项目反应理论(Item Response Theory, IRT),这是一种通常用于人类标准化考试(如GRE、SAT)的统计学框架。

统一难度坐标:IRT假设存在一个潜在的能力变量。它不再单纯看分数的绝对值,而是通过分析模型在不同难度题目上的表现,推算出模型在这一潜在能力轴上的位置。

基准缝合(Stitching):ECI将39个截然不同的基准测试缝合在了一起。无论是一个简单的Python编程题,还是FrontierMath中那些连数学教授都要解几小时的难题,都被映射到了同一个难度标尺上。

抗饱和设计:当简单的基准被刷爆饱和后,ECI会自动依赖更难的基准来提供区分度。这就像是一个自适应的考试系统,题太简单了就自动换难题,确保永远能测出考生的真实上限。

通过这种方法,ECI成功地将从2023年至今的126个模型、1103个评分数据点整合成了一条连续的能力曲线,让我们得以窥见AI进化的全貌。

ECI底层汇聚了39个极具代表性的基准测试。

这些测试涵盖了数学、代码、科学问答、甚至通过终端操作计算机的能力。还包括了从逻辑推理(ARC-AGI)、代码多语言能力(Aider Polyglot)、到长文本理解(L-Series)的全方位测试。

ECI正是通过综合这些五花八门的测试结果,剥离了单一测试的偶然性,提炼出了那个名为通用智能的核心变量。

METR Time Horizon:衡量自主性的维度

ECI衡量的是智力的高度,METR的Time Horizon(时间跨度)衡量的是智力的耐力。

METR Time Horizon 的定义非常直观且具有冲击力:一个AI模型能够在不需要人类干预的情况下,以50%的成功率独立完成的任务,其对应的人类专家耗时是多少?

2023年初的模型,可能只能独立完成人类几分钟就能做完的简单脚本编写。

2024年的顶尖模型,已经开始向独立完成人类需要数小时甚至数天才能完成的复杂软件工程任务发起冲击。

2024年10月观测到的40%加速,正是AI从助手(Chatbot)向代理(Agent)蜕变的动力。

这种能力的提升,直接来源于模型在长逻辑链条上的稳定性增强——这正是推理模型(Reasoning Models)的核心优势。

当模型学会了三思而后行(Chain of Thought)和自我反思,它就能在长时间的任务中保持航向,不再轻易迷失。

ECI的数据洞察告诉我们:AI的能力提升不仅没有触顶,反而在换挡加速。

随着推理能力的解锁和强化学习的深入,我们正在见证智能系统从博学向精深,从瞬间反应向长时思考的跨越。

参考资料:

https://epoch.ai/benchmarks/eci

https://epoch.ai/data-insights/ai-capabilities-progress-has-sped-up

https://x.com/YafahEdelman/status/2002871018193670556

https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/4 7:16:31

2026年CIO做AI规划时的3个关键点

站在“十五五”规划的新起点,中国正以“人工智能”行动为重要引擎,加快推进经济高质量发展。从智能制造到智慧城市,从数字政务到智慧民生,AI成为决定企业核心竞争力的关键要素。作为企业数字化转型的规划者和推动者,CI…

作者头像 李华
网站建设 2026/2/3 13:58:17

易语言开发者破圈指南:从技术工匠到价值创作者

易语言开发者破圈指南:从技术工匠到价值创作者 🚀 1.15.1 学习目标 🎯 作为《易语言开发从入门到精通》的价值升华终章,本章将突破「技术本身的局限」,解决你学完易语言后最核心的痛点——“怎么用易语言改变职业轨迹、…

作者头像 李华
网站建设 2026/2/6 5:57:09

ue 操作 metahuman

操作张嘴:import unrealACTOR_NAME "BP_Bernice_C_UAID_24B2B9B96FE856AF02_1876048431"subsystem unreal.get_editor_subsystem(unreal.EditorActorSubsystem) actors subsystem.get_all_level_actors()actor None for a in actors:if a.get_name() …

作者头像 李华
网站建设 2026/2/7 2:18:47

PD协议诱骗芯片工作原理,Type-C充电器出不来电压是什么原因?

这几年,很多厂商陆续将Type-C取代以前的USB口,手机,平板,笔记本以及生活小家电,消费电子等等产品,都采用了Type-C口。充电器也都是Type-C充电器,含有不同的快充功能。 使用Type-C接口的充电器最…

作者头像 李华
网站建设 2026/2/4 21:25:53

Comsol微小倾斜造就极致手性:连续体束缚态内秉手性的探究

Comsol微小倾斜带来的极致手性。 连续体中束缚态的内秉手性。实验室里的光学元件突然歪了0.1度,原本稳定的激光束突然出现螺旋状光斑——这种微小扰动带来的手性效应,最近在COMSOL仿真中展现出惊人的可控性。当我们把两个反向旋转的硅纳米盘以特定角度倾…

作者头像 李华