这里从多个角度分析和探索RAG信息检索常用的基准和评测指标。
1 BEIR
1.1 通用检索基准 (BEIR)
BEIR是一个用于零样本文本信息检索的标准评估基准。它旨在解决传统模型在单一数据集上评估、难以衡量其真实泛化能力的问题,BEIR集合了18个来自不同任务和领域的公开数据集。
1.2 NDCG
NDCG(Normalized Discounted Cumulative Gain)作为评估指标。NDCG通常用于衡量排名质量,特别是在信息检索中。
1.3 NDCG@10
NDCG@10 是信息检索中衡量搜索结果排名的核心指标,重点关注前10个结果的相关性和排序质量。在BEIR这类评估基准中,它是最关键的模型效果衡量标准。
NDCG@10 的全称是 “归一化折现累积增益在10处”。它的核心思想是:
相关性有等级:每个结果的相关性不是简单的“相关”或“不相关”,而是有多个等级(如0-4分)。
排名越高越重要:排在前面的相关结果对用户价值更大,因此其增益会乘以一个位置折现因子(排名越靠后,折现越多)。
结果归一化:将实际得分除以“理想排序”下的最高可能得分,得到一个介于0到1之间的值。1分表示前10个结果以完美相关性顺序呈现。
Elastic官网研究发现,倒数排序融合 (ELSER + BM25)相比单一ELSER检索,NDCG@10提升1.4%;相比单一BM25,提升18%。
其中,ELSER (Elastic Learned Sparse Encoder)是 Elastic 公司专门为零样本语义搜索而设计,其核心特点是利用“稀疏向量”来理解查询意图和上下文,而非仅匹配关键词。
https://www.elastic.co/search-labs/blog/improving-information-retrieval-elastic-stack-hybrid
https://github.com/beir-cellar/beir
2Rouge-L
2.1 Rough
ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是一组评估文本生成质量的指标。
2.2 Rouge-L
ROUGE-L 是ROUGH的一个变体,基于最长公共子序列。
ROUGE-L是寻找机器生成的文本和人工参考摘要之间的最长公共子序列。
最长公共子序列,就是两个序列中都出现的最长子序列,元素不需要连续,但顺序必须一致。
2.3 Rough-L计算
ROUGE-L 结合了准确率和召回率:
召回率= LCS长度 / 参考摘要长度
(生成的摘要包含了多少参考摘要的内容)
准确率= LCS长度 / 生成摘要长度
(生成的摘要中有多少是正确的)
F1分数= 2 × (准确率 × 召回率) / (准确率 + 召回率)
(F1得分是综合平衡得分)
示例如下
参考摘要(A):
[这, 只, 猫, 坐, 在, 垫, 上]生成摘要(B):
[垫, 上, 有, 一, 只, 猫]最长公共子序列的长度 L = 2(例如
[只, 猫]或[垫, 上])。正确计算:
R = 2 / 7 ≈ 0.286
P = 2 / 6 ≈ 0.333
F1 ≈ 0.308
3 检索延迟
3.1 检索延迟
检索延迟通常指从用户发起查询到系统返回结果所经历的时间差。它是一个直接影响用户体验的核心性能指标,延迟过高可能导致用户放弃等待。
3.3 应对方案
为了应对延迟挑战,学术界和工业界提出了多种创新方案:
PLAID引擎:针对先进的“延迟交互检索”范式(如ColBERT模型)进行优化,通过引入质心交互等机制,在保证精度的前提下,将GPU上的检索延迟降低了7倍,CPU上甚至能达到45倍的加速,实现大规模数据集下的毫秒级响应。
Airphant搜索引擎:专为“计算与存储分离”的云环境设计。它使用名为 IoU Sketch 的新型统计索引,通过并行发起多个异步网络请求来获取数据,避免了传统索引的串行等待。实验显示,其端到端延迟在13毫秒到300毫秒之间,比Apache Lucene快8.97倍,比Elasticsearch快113.39倍。
DeepSeek联网搜索优化:从系统工程角度,采用分布式索引、边缘节点缓存、多级缓存体系和查询预取等综合策略,将平均查询响应时间从2.3秒降至0.8秒-2。
4内存效率
4.1 内存效率
内存效率关注的是如何以最小的内存资源消耗,达成特定的计算目标。它是衡量软件或算法在内存使用上“经济性”的核心指标,与检索延迟(你之前关心的速度指标)紧密相关,两者常需权衡。
4.2 优化策略
信息检索领域,内存效率优化无处不在。
索引压缩:搜索引擎(如Elasticsearch/Lucene)会对倒排索引使用多种编码进行压缩,使海量索引能装入内存。
缓存策略:在内存中缓存热点查询结果或常用索引块,但需精心设计缓存淘汰算法(如LRU、LFU),在有限的缓存空间内存放最高价值的数据。
向量检索优化:对于AI时代的海量向量数据,采用产品量化(PQ)等技术,将高维向量压缩成短编码,大幅降低内存占用和计算距离时的带宽需求,是实现内存高效近似检索的关键。
reference
---
Improving information retrieval in the Elastic Stack: Hybrid retrieval
https://www.elastic.co/search-labs/blog/improving-information-retrieval-elastic-stack-hybrid
A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models
https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/65b9eea6e1cc6bb9f0cd2a47751a186f-Paper-round2.pdf
beir
https://github.com/beir-cellar/beir