news 2026/7/3 21:38:24

从能力到评测:DeepAnalyze 发布数据能力 Benchmark,补全代码智能体评估闭环

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从能力到评测:DeepAnalyze 发布数据能力 Benchmark,补全代码智能体评估闭环

一、背景:数据科学智能体的落地与评测缺口

2025 年,中国人民大学信息学院范举教授团队联合清华大学研究力量,正式发布首个面向数据科学的 Agentic 大语言模型 ——DeepAnalyze。

该模型可模拟数据科学家的工作流程,自主完成数据准备、分析建模、可视化输出到报告生成的全链路工作。发布不到一周,项目便在 GitHub 收获超 1000 个星标,国内外社交媒体累计浏览量突破 20 万次。目前模型已在和鲸社区 ModelWhale 平台部署,用户无需本地环境配置即可在线体验。

随着 LLM 与 AI Agent 在数据分析场景的落地深化,行业暴露出明显的评测体系短板:传统代码生成 Benchmark 仅聚焦函数级编程能力,数据分析 Benchmark 多局限于单表查询场景,完全无法覆盖真实企业中成百上千文件的海量数据环境与复杂分析任务。数据智能体的真实落地能力,长期处于无统一、可复现评估标准的空白状态。

二、CoDA-Bench:海量数据场景下的智能体评测基准

针对上述行业痛点,人大团队正式推出CoDA-Bench评测基准,专门用于评估 AI Agent 在海量数据环境下的复杂分析任务解决能力。

该基准的测试环境平均包含约 1000 个数据文件,高度还原真实企业的数据规模、文件结构与任务复杂度,填补了多文件、跨数据源复杂分析场景的评测空白,能够更真实地反映代码智能体的落地能力。

目前,CoDA-Bench 相关研究论文已被ICML 2026正式接收,评测体系的学术价值获得国际顶会认可。

三、开源资源与社区交流

为推动全行业共同建设数据智能体评估体系,CoDA-Bench 已实现全资源开源,覆盖论文、测试数据集、评估代码全链路,支持对 Claude Code、Codex 等主流代码智能体进行一键化能力评估。

相关开源地址:

  • 论文:https://huggingface.co/papers/2606.15300
  • 代码仓库:https://github.com/ruc-datalab/CoDA-Bench
  • 数据集:https://huggingface.co/datasets/RUC-DataLab/CoDA-Bench

欢迎正在探索 LLM + 数据分析落地的开发者加入关注和鲸,共同推动数据智能体评测体系的完善与发展。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/27 5:29:24

淄博黄金白银回收铂金旧金回收无套路门店 TOP 榜单 实地测评资料整理

淄博的黄金白银回收店铺星罗棋布,铂金旧金回收市场更是鱼龙混杂,市民想找到靠谱变现渠道难免挑花眼。为帮大家甄别诚信商户,小编实地走访多家门店,筛选出本地正规回收清单。收录商户既有连锁老牌机构,也有深耕本土多年…

作者头像 李华
网站建设 2026/6/27 5:23:54

ins红人营销执行清单:视觉种草、UGC素材与数据追踪

ins红人营销要做出稳定结果,核心不是一次性找多少达人,而是能不能把筛选、建联、内容、发布和复盘变成可复制流程。尤其在亚马逊测评阶段,品牌需要先判断目标市场、用户痛点和内容表达方式,再决定用什么类型的达人组合。在CSDN这类…

作者头像 李华
网站建设 2026/6/27 5:23:21

最小二乘法与机器学习正规方程

每个样本都有误差 eiyi^−yi​e_i \hat{y_i} - y_i​ei​yi​^​−yi​​,如果直接把误差相加,会正负互相抵消,所以把误差平方: Loss:J(θ)∑i(yi^−yi​)2 Loss:J(\theta) \sum_i(\hat{y_i} - y_i​)^2 Loss:J(θ)i∑​(yi​^​…

作者头像 李华
网站建设 2026/6/27 5:20:15

第一章Netty,transferTo核心用法理解

基于前文对 FileChannel 零拷贝特性及 transferTo 核心用法的讨论,以下是一个‌生产级‌的完整示例。该示例展示了如何利用 transferTo 高效复制大文件,并处理了‌分块传输‌、‌资源管理‌及**异常捕获等关键细节。 先来个简单的示例预热一下: public class FileChannelT…

作者头像 李华
网站建设 2026/6/27 5:16:04

ADC的过采样

假设过采样设置为16过采样,同时使用硬件触发,单次多通道,DMA搬运; 工作流程是: 1.软件发起ADSTART信号开启ADC,但是此时还不会开始进行转换; 2.当检测到硬件触发边沿,ADC开始按通道顺…

作者头像 李华
网站建设 2026/6/27 5:15:02

将windows中HDFS-javaAPI文件打包,在linux的hadoop平台运行

目录 运行前提 一、打包 方式 1:IDEA 标准 Artifacts 打包 1.顶部菜单 File → Project Structure(快捷键 CtrlAltShiftS) 2.左侧 Artifacts → 右上角 → JAR → From modules with dependencies 配置弹窗 3.顶部菜单 Build → Build…

作者头像 李华