文章介绍了两个大模型评测基准:DeepResearchEval和A3-Bench。DeepResearchEval通过自动化任务构建、自适应评估和主动事实核查,提升深度研究系统评测的全面性和准确性;A3-Bench则通过锚点和吸引子激活机制,评估科学推理中的记忆驱动过程,显著提升模型推理性能。两者为评估和改进大模型提供了新的范式,对学术研究和实际应用均有重要价值。
2026-01-14|InfinityLab, Shanda Group, NTU|🔺90
http://arxiv.org/abs/2601.09688v1
https://huggingface.co/papers/2601.09688
https://github.com/Infinity-AILab/DeepResearchEval
研究背景与意义
- 问题定义与现状概述
深度研究系统(Deep Research Systems)作为一种能够执行多步骤网络调研、跨源信息综合的智能代理,正逐渐成为人工智能领域的重要研究方向。随着大型语言模型(LLMs)的快速发展,这类系统能够自主规划复杂任务、迭代检索信息、进行跨源验证,并生成结构化、引用充分的长篇报告。然而,当前对这类系统的评估仍面临严重挑战,主要体现在任务构建依赖专家标注、评估维度固定且缺乏动态适应性,以及事实核查仅限于有引用的内容,忽视未引用的陈述。 - 挑战与目标阐明
现有评测基准存在三大瓶颈:(1)任务构建高度依赖专家,成本高且难以持续更新;(2)评估指标静态且通用,难以反映不同任务的特定需求;(3)事实核查局限于引用链接,无法有效验证未引用信息。为解决这些问题,本文提出了DeepResearchEval,一个自动化的任务构建与智能评估框架,旨在实现任务多样性与真实性的自动生成,动态适应性评估维度,以及主动的事实核查,提升评估的全面性和准确性。
研究方法与创新
- 自动化的个性化任务构建
通过“persona-driven”管线,基于不同领域和角色背景自动生成多样且复杂的研究任务。此方法结合了多轮网络检索、多源证据整合和深度分析要求,确保任务真实且具挑战性。采用两阶段过滤(任务资格过滤和检索必要性过滤),剔除简单或无需外部检索即可解决的任务,最终保留100个高质量任务,覆盖交通、政治、金融、健康等十个代表性领域。 - 自适应点状质量评估(Adaptive Point-wise Quality Evaluation)
该评估机制结合固定的通用维度(覆盖度、洞察力、指令遵循度和清晰度)与自动生成的任务特定维度,动态调整维度权重和评分标准,实现针对每个任务的细粒度、可解释的质量打分。评分标准细分为多个评价标准,保证评估的全面性和针对性,显著优于传统固定维度的评估体系。 - 主动事实核查机制(Active Fact-Checking)
不依赖于报表内的引用信息,主动提取可验证陈述,调用多轮检索工具获取外部证据,进行上下文感知的事实验证。通过标注“正确”、“错误”或“未知”三类标签,精确区分错误信息与缺乏证据的陈述,提升事实核查的深度和广度,解决了传统核查方法忽略未引用内容的缺陷。 - 整体框架创新
DeepResearchEval框架首次将自动化个性化任务构建与自适应评估及主动事实核查结合,形成闭环评估系统。该系统不仅提升了任务构建效率和多样性,还实现了评估维度的动态调整和事实核查的主动性,极大增强了评估的准确性和实用价值。
实验设计与结果分析
- 实验设计
选取9个代表性深度研究系统(包括OpenAI Deep Research、Gemini-2.5-Pro、Manus等),每个系统针对100个自动生成的任务输出研究报告,共计900份报告。利用Gemini-2.5-Pro模型执行自适应质量评估,使用基于GPT-5-mini的多轮工具执行主动事实核查。评估指标包括整体质量分、维度细分分数及事实核查正确率。 - 实验结果
- 质量评估表现:Gemini-2.5-Pro系统以8.51/10的平均分领先,表现出在覆盖度、洞察力和指令遵循度上的卓越能力。Claude-Sonnet-4.5和OpenAI Deep Research表现均衡,其他系统如Manus和DeepSeek则在指令遵循度较好但覆盖和洞察稍逊。
- 事实核查表现:Manus系统在事实正确率(82.3%)上表现最佳,紧随其后的是Gemini-2.5-Pro和DeepSeek。事实错误率普遍较低,但“未知”比例较高,表明当前系统在证据支持方面仍存在不足。
- 任务特定评分低于通用评分,反映出系统虽能满足一般评估标准,但在满足特定任务需求方面仍有提升空间,验证了采用自适应评估维度的必要性。
- 评估方法稳定性验证:通过引入GPT-5作为次级评审,评估排名高度一致(7/9模型排名相同),且多次独立运行结果波动极小,显示评估体系稳定可靠。人工专家与模型事实核查结果达成73%一致,进一步验证了自动核查的准确性。
- 多场景表现与对比
各系统在不同领域任务中表现差异明显,Gemini-2.5-Pro在工业、科技等领域表现尤为突出,Manus在医疗健康领域事实准确性优异。整体来看,系统在任务复杂度和多样性增加时,表现出不同的强弱点,强调了动态评估和多维度考量的重要性。
结论与展望
- 总结贡献
本文提出的DeepResearchEval框架创新性地实现了自动化、个性化的深度研究任务构建与自适应、多维度的报告质量评估,以及主动外部事实核查,显著提升了深度研究系统评测的全面性和准确性。通过对九大主流系统的广泛评测,揭示了当前系统在信息覆盖、分析深度、事实准确性等方面的差异和不足,为未来系统优化提供了明确方向。 - 局限性分析
- 目前框架主要基于英语信息生态,尚未扩展到多语言环境,限制了其在全球范围内的适用性。
- 事实核查和质量评估过程计算资源消耗较大,依赖于多轮模型调用和外部检索接口,限制了大规模实时应用。
- 任务构建依赖预定义领域和角色,未来需进一步增强任务生成的多样性和开放性。
- 未来展望
- 拓展多语言、多文化背景下的任务构建与评估能力,提升跨语言信息综合与验证的能力。
- 优化评估和事实核查算法,降低计算成本,提高实时性和可扩展性。
- 探索更丰富的任务生成策略,结合用户反馈动态调整任务难度和内容,打造持续更新的“活”基准。
- 深化任务特定维度的研究,推动深度研究系统在特定行业和应用场景的专业化发展。
综上,DeepResearchEval为深度研究系统的评估提供了新的范式,既推动了学术研究,也为实际应用中的系统选择和改进提供了有力工具。
A 3 A^3A3-Bench: Benchmarking Memory-Driven Scientific Reasoning via Anchor and Attractor Activation
2026-01-14|XJTU, NUS Show Lab|🔺74
http://arxiv.org/abs/2601.09274v1
https://huggingface.co/papers/2601.09274
https://a3-bench.github.io/
研究背景与意义
- 科学推理的复杂性与挑战
科学推理不仅依赖于逻辑推断,还高度依赖于激活先验知识和经验结构。现有的推理基准主要关注最终答案的正确性或步骤一致性,忽视了记忆驱动机制在推理中的核心作用。该机制涉及到“锚点”(anchors)和“吸引子”(attractors)的激活,并将其整合进多步推理过程。 - 记忆驱动机制的必要性
人类科学推理依赖于层级化的记忆结构,从具体经验到抽象模式,记忆的上下文依赖性激活是推理准确性和稳定性的关键。现有基准未能评估模型在推理过程中对记忆的激活能力,难以区分推理失败是逻辑推断错误还是记忆检索不足。 - 研究目标
本文旨在构建一个基于锚点和吸引子激活的科学推理基准(A3-Bench),通过双尺度记忆激活评估框架与AAUI指标(锚点-吸引子利用指数),实现对记忆驱动推理的细粒度评估,推动更可靠、类人记忆机制的大语言模型(LLM)发展。
研究方法与创新
- 双尺度记忆模型设计
受人类层级记忆启发,提出锚点(基础知识单元)和吸引子(经验模板)两层次记忆结构。锚点限定推理初始状态和关注范围,吸引子引导推理路径,二者结合形成推理的状态空间。 - SAPM注释流程与数据集构建
设计了四步SAPM过程:学科细分与基准定义;锚点与吸引子开发;问题重构与难度评估;记忆映射,将2198道跨数学、物理、化学的科学推理题目与对应的锚点和吸引子关联,确保数据集具有层次化、结构化的记忆标注。 - AAUI指标创新
提出Anchor-Attractor Utilization Index(AAUI),结合锚点和吸引子的召回率及交互作用,量化模型在推理过程中对专家标注记忆单元的激活程度,提供对记忆利用效率的可解释性度量。 - HybridRAG推理框架
采用基于向量检索与图遍历的混合记忆激活机制(MemoryTwin-NeedleActivator),结合上下文织造器(ContextFabricComposer),实现对锚点和吸引子的高效召回与融合,支持多步推理的动态记忆激活。 - 多模型、多范式实验设计
评估涵盖10个不同规模和架构的LLM,比较无记忆、全记忆和金标准记忆激活三种范式下的推理表现,全面验证所提基准和指标的有效性与泛化能力。
实验设计与结果分析
- 数据与模型覆盖
数据集涵盖2198道题,分布于数学、物理和化学三个学科,难度从易到难。实验选取了包括GPT-5、Claude、Grok、Qwen系列等10个主流大模型。 - 性能提升显著
记忆激活(特别是带注释的锚点和吸引子激活)显著提升了所有模型的科学推理准确率,平均提升13.48个百分点,难题上的提升尤为明显,缩小了易难题之间的性能差距。 - AAUI与准确率高度相关
模型在推理过程中激活的锚点和吸引子越多(AAUI越高),推理准确率越高,表明AAUI有效反映了记忆激活对推理质量的贡献。 - 泛化能力强
在未经训练的OlympiadBench数据集上,锚点-吸引子激活范式同样带来稳定提升,表明该记忆驱动机制具有良好的跨数据集泛化能力。 - 推理效率提升
采用带注释记忆激活的范式不仅提升准确率,还降低了平均推理时间,尤其是大模型表现出较大推理速度提升,兼顾了效率与效果。 - 错误类型分析
记忆激活显著减少了推理和知识类错误,特别是在高难度问题上效果明显,而计算和格式错误变化较小,说明记忆激活主要优化了推理路径选择和知识调用。
结论与展望
- 贡献总结
本文提出了A3-Bench,一个首创的基于锚点和吸引子激活的科学推理基准,结合双尺度记忆结构和AAUI指标,实现了对记忆驱动推理的细粒度、可解释评估。实验证明,记忆激活机制显著提升了多模型、多学科、多难度层次的科学推理性能,且具备良好泛化与效率优势。 - 局限性分析
当前工作主要聚焦于锚点和吸引子两类记忆单元,未来可扩展至更丰富的记忆类型和动态记忆更新机制。此外,数据集规模和跨模态能力仍有提升空间,部分模型对记忆激活的利用存在差异,需进一步研究模型适配策略。 - 未来展望
未来研究可探索更深层次的记忆结构与推理路径交互,结合长期交互记忆与多模态信息,推动大语言模型向更类人、动态、可持续的科学推理能力迈进。同时,基准可扩展至更多领域与推理形式,促进记忆驱动AI系统的理论与应用发展。
如何学习AI大模型?
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
第一阶段:从大模型系统设计入手,讲解大模型的主要方法;
第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓