news 2026/5/8 9:30:33

RAG信息检索基准评测指标的分析和探索

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
RAG信息检索基准评测指标的分析和探索

这里从多个角度分析和探索RAG信息检索常用的基准和评测指标。

1 BEIR

1.1 通用检索基准 (BEIR)

BEIR是一个用于零样本文本信息检索的标准评估基准。它旨在解决传统模型在单一数据集上评估、难以衡量其真实泛化能力的问题,BEIR集合了18个来自不同任务和领域的公开数据集。

1.2 NDCG

NDCG(Normalized Discounted Cumulative Gain)作为评估指标。NDCG通常用于衡量排名质量,特别是在信息检索中。

1.3 NDCG@10

NDCG@10 是信息检索中衡量搜索结果排名的核心指标,重点关注前10个结果的相关性和排序质量。在BEIR这类评估基准中,它是最关键的模型效果衡量标准。

NDCG@10 的全称是 “归一化折现累积增益在10处”。它的核心思想是:

相关性有等级:每个结果的相关性不是简单的“相关”或“不相关”,而是有多个等级(如0-4分)。

排名越高越重要:排在前面的相关结果对用户价值更大,因此其增益会乘以一个位置折现因子(排名越靠后,折现越多)。

结果归一化:将实际得分除以“理想排序”下的最高可能得分,得到一个介于0到1之间的值。1分表示前10个结果以完美相关性顺序呈现

Elastic官网研究发现,倒数排序融合 (ELSER + BM25)相比单一ELSER检索,NDCG@10提升1.4%;相比单一BM25,提升18%。

其中,ELSER (Elastic Learned Sparse Encoder)是 Elastic 公司专门为零样本语义搜索而设计,其核心特点是利用“稀疏向量”来理解查询意图和上下文,而非仅匹配关键词。

https://www.elastic.co/search-labs/blog/improving-information-retrieval-elastic-stack-hybrid

https://github.com/beir-cellar/beir

2Rouge-L

2.1 Rough

ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一组评估文本生成质量的指标。

2.2 Rouge-L

ROUGE-L 是ROUGH的一个变体,基于最长公共子序列。

ROUGE-L是寻找机器生成的文本人工参考摘要之间的最长公共子序列

最长公共子序列,就是两个序列中都出现的最长子序列,元素不需要连续,但顺序必须一致。

2.3 Rough-L计算

ROUGE-L 结合了准确率召回率

召回率= LCS长度 / 参考摘要长度

(生成的摘要包含了多少参考摘要的内容)

准确率= LCS长度 / 生成摘要长度

(生成的摘要中有多少是正确的)

F1分数= 2 × (准确率 × 召回率) / (准确率 + 召回率)

(F1得分是综合平衡得分)

示例如下

参考摘要(A)[这, 只, 猫, 坐, 在, 垫, 上]

生成摘要(B)[垫, 上, 有, 一, 只, 猫]

最长公共子序列的长度 L = 2(例如[只, 猫][垫, 上])。

正确计算

R = 2 / 7 ≈ 0.286

P = 2 / 6 ≈ 0.333

F1 ≈ 0.308

3 检索延迟

3.1 检索延迟

检索延迟通常指从用户发起查询到系统返回结果所经历的时间差。它是一个直接影响用户体验的核心性能指标,延迟过高可能导致用户放弃等待。

3.3 应对方案

为了应对延迟挑战,学术界和工业界提出了多种创新方案:

PLAID引擎:针对先进的“延迟交互检索”范式(如ColBERT模型)进行优化,通过引入质心交互等机制,在保证精度的前提下,将GPU上的检索延迟降低了7倍,CPU上甚至能达到45倍的加速,实现大规模数据集下的毫秒级响应。

Airphant搜索引擎:专为“计算与存储分离”的云环境设计。它使用名为 IoU Sketch 的新型统计索引,通过并行发起多个异步网络请求来获取数据,避免了传统索引的串行等待。实验显示,其端到端延迟在13毫秒到300毫秒之间,比Apache Lucene快8.97倍,比Elasticsearch快113.39倍。

DeepSeek联网搜索优化:从系统工程角度,采用分布式索引、边缘节点缓存、多级缓存体系和查询预取等综合策略,将平均查询响应时间从2.3秒降至0.8秒-2。

4内存效率

4.1 内存效率

内存效率关注的是如何以最小的内存资源消耗,达成特定的计算目标。它是衡量软件或算法在内存使用上“经济性”的核心指标,与检索延迟(你之前关心的速度指标)紧密相关,两者常需权衡。

4.2 优化策略

信息检索领域,内存效率优化无处不在。

索引压缩:搜索引擎(如Elasticsearch/Lucene)会对倒排索引使用多种编码进行压缩,使海量索引能装入内存。

缓存策略:在内存中缓存热点查询结果常用索引块,但需精心设计缓存淘汰算法(如LRU、LFU),在有限的缓存空间内存放最高价值的数据。

向量检索优化:对于AI时代的海量向量数据,采用产品量化(PQ)等技术,将高维向量压缩成短编码,大幅降低内存占用和计算距离时的带宽需求,是实现内存高效近似检索的关键。

reference

---

Improving information retrieval in the Elastic Stack: Hybrid retrieval

https://www.elastic.co/search-labs/blog/improving-information-retrieval-elastic-stack-hybrid

A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models

https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/65b9eea6e1cc6bb9f0cd2a47751a186f-Paper-round2.pdf

beir

https://github.com/beir-cellar/beir

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 9:29:26

python-uniapp微信小程序的农产品质量追溯系统_gkm0juhi

文章目录系统截图项目技术简介可行性分析主要运用技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统截图 python-uniapp_gkmjuhi 微信小程序的农产品质量追溯系统 项目技术简介 Python版本&#xf…

作者头像 李华
网站建设 2026/5/2 20:29:30

知网AIGC查重90%到4%,全靠7个免费降重降Ai工具

市场上的降AI率工具良莠不齐,如何科学判断降AI率效果是很多学生、老师最关心的问题,担心降不来AI率,耽误时间还花不少钱。 本文将从以下五个维度系统,分析2025年主流的8个降AI工具,教大家如何选择适合自己的降AIGC工具…

作者头像 李华
网站建设 2026/5/8 1:35:58

知网AIGC查重原理大揭秘:为什么你改了还是高?7个快速降AI率工具

市场上的降AI率工具良莠不齐,如何科学判断降AI率效果是很多学生、老师最关心的问题,担心降不来AI率,耽误时间还花不少钱。 本文将从以下五个维度系统,分析2025年主流的8个降AI工具,教大家如何选择适合自己的降AIGC工具…

作者头像 李华
网站建设 2026/5/3 19:11:11

【Java毕设全套源码+文档】基于springboot的易家宜超市云购物系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/1 23:36:30

【Java毕设全套源码+文档】基于springboot的农机配件仓库管理系统的设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/5/3 20:00:56

【Java毕设全套源码+文档】基于springboot的煤矿信息管理系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华