news 2026/1/14 10:00:43

[论文阅读]RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
[论文阅读]RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation

https://proceedings.neurips.cc/paper_files/paper/2024/hash/27245589131d17368cccdfa990cbf16e-Abstract-Datasets_and_Benchmarks_Track.html

NIPS 2024

尝试从图中理解作者的工作:

作者是对RAG系统的评估进行了更加细粒度的指标定义

这些指标是在构建RAGChecker框架时专门设计的,用以更精细地诊断和量化 RAG 系统各个模块的性能与行为,不仅仅是粗略的召回/准确率,而能识别出检索和生成组件的具体优劣以及它们之间的交互特性。

传统的评估指标(如 recall@k、MRR、BLEU、ROUGE、BERTScore 等)通常用于评估检索排名或文本生成质量,但它们:

  1. 不能明确分解错误来源(检索 vs 生成)

  2. 难以区分语义错误、噪声敏感度、幻觉等不同行为

  3. 对于长文本及复杂回答表现不稳定

RAGChecker 引入一套基于“断言(claim)级别蕴含关系判断”的细粒度指标,可以更精细诊断 RAG 系统错误类型和机制。

RAGChecker 的指标体系分为三大类:

  1. 整体性能指标(Overall Metrics)

  2. 检索模块诊断指标(Retriever Diagnostic Metrics)

  3. 生成模块诊断指标(Generator Diagnostic Metrics)

整体性能指标

这些指标衡量 RAG 系统从查询到生成回答的整体表现:

指标

定义

说明

Precision

生成回答中正确断言所占比例

衡量回答中有多少内容是正确的

Recall

ground truth 断言中被回答覆盖的比率

衡量回答的完整性

F1 score

Precision 和 Recall 的调和平均

综合评估整体质量

  • 断言(claim)是指答案中独立的事实性陈述,经由工具抽取和语义蕴含判断生成这些指标。

  • 这些指标更关注答案是否覆盖重要事实及是否正确,而不是单纯的 n-gram 或向量相似度。

检索模块诊断指标

这些指标用于分析检索器在提取上下文片段(chunks)时的性能:

指标

计算方式

意义

Claim Recall

所有 ground truth 断言中,被检索上下文覆盖的比例

检索到的相关信息覆盖率

Context Precision

检索到的片段中,与 ground truth 有语义关系的片段比例

检索的噪声 vs 有用片段的精度

  • Claim Recall判断检索上下文是否真的包含了对回答有信息价值的内容。

  • Context Precision衡量检索器是否带入太多无关噪声(噪音片段可能误导生成器)。

生成模块诊断指标

这些指标细粒度分析生成模块如何利用检索上下文以及生成回答的可靠性:

指标

定义

说明

Context Utilization

在生成的正确断言中,有多少是使用检索上下文信息推断的

衡量生成器有效使用检索信息的程度

Relevant Noise Sensitivity

错误断言比例中,从相关检索信息中推断出的错误断言

检查生成器是否过度信任相关上下文中的噪声

Irrelevant Noise Sensitivity

错误断言比例中,由不相关检索信息引起的错误

生成器对无用上下文的敏感度

Hallucination

错误断言中无法从任何检索上下文推断出的部分

衡量生成器的幻觉现象

Self-knowledge

正确断言中无法从检索上下文推断出的部分

表示生成器依赖自身知识而非检索信息

Faithfulness

所有断言中可从检索上下文推断出的比例

衡量回答的“忠实度”

• Context Utilization

评估回答中正确的断言有多少是从检索内容中真正推导出来的。

高值意味着生成器有效利用了检索结果,有助于减少模型依赖自身记忆。

• Noise Sensitivity(相关/不相关)

拆分错误断言来源:

  • 相关噪声敏感性:错误断言是基于相关检索上下文中噪声的推断。

  • 不相关噪声敏感性:错误断言来自完全无关背景信息。

这两项指标帮助定位生成错误是否因为检索带来的噪声信息所致。

• Hallucination

衡量模型“凭空生成错误事实”的比例,即与任何检索内容无直接语义蕴含关系的错误。

这是衡量生成部分幻觉的重要指标。

• Self-knowledge

表示模型正确回答中不是来自检索上下文的信息。

在一些场景中这并不是坏事(例如广泛公共知识),但在 RAG 任务中高 Self-knowledge 表示生成器可能忽视检索结果。

• Faithfulness

衡量回答中有多少事实能被检索上下文蕴含。是对生成回答“是否忠实于检索内容”的整体度量。

RAGChecker 的细粒度指标设计具有如下优势:

  1. 语义驱动,不局限于表面结构匹配:通过断言级语义蕴含判断,能更真实反映“回答是否真实”而非仅对文本相似性。

  2. 模块拆解明确错误来源:分别诊断检索与生成,有助于定位性能瓶颈。

  3. 与人类评判高度相关:元评估显示 RAGChecker 指标比现有指标更符合人类判断

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/10 2:43:35

慢SQL分析与优化实战

慢SQL分析与优化实战一、发现问题:如何发现慢查询?慢查询的发现通常依赖于监控体系,不同规模团队分工不同:团队角色主要发现途径工具示例运维 / DBA主导监控。负责数据库整体健康度,通过监控平台主动发现、统计并告警慢…

作者头像 李华
网站建设 2025/12/31 20:32:39

计算机Java毕设实战-基于springboot的见山茶食酒馆网站菜品 / 茶酒品类管理茶食酒馆 “休闲社交 + 精致消费” 的场景需求【完整源码+LW+部署说明+演示视频,全bao一条龙等】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2025/12/26 23:49:39

炸裂发布!AI应用架构师在金融市场AI监控系统的新成果

炸裂发布!AI应用架构师在金融市场AI监控系统的新成果 关键词:金融AI监控系统、实时异常检测、可解释AI、时间序列分析、风险预警、分布式架构、模型漂移检测 摘要:金融市场如同波涛汹涌的大海,每一秒都有数以亿计的交易在全球流动。传统监控系统如同老旧的灯塔,面对瞬息万…

作者头像 李华
网站建设 2025/12/28 4:00:07

2025最新!MBA论文必备10个AI论文平台深度测评

2025最新!MBA论文必备10个AI论文平台深度测评 2025年MBA论文写作工具测评:如何选择高效实用的AI平台 随着人工智能技术的不断进步,越来越多的MBA学生开始借助AI工具提升论文写作效率。然而,面对市场上琳琅满目的AI论文平台&#x…

作者头像 李华
网站建设 2026/1/3 11:59:47

家庭电脑如何设定阻止玩电脑游戏?以防止孩童游戏沉迷

在家庭用户单机的上网行为管理中如何禁止玩网络游戏和在线下载安装游戏程序,过滤一些内容不良的网站内容,也不需要在什么路由器呀,防火墙呀,上网行为管理等设备中进行复杂的设定,通过单机就在单机实现,我们只要给电脑安装上卡巴斯基互联网安全软件就可以了,不过安装完后…

作者头像 李华