news 2026/3/14 11:27:35

在RAG中文档处理质量参差不齐的情况下——提升召回精度的企业级解决方案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
在RAG中文档处理质量参差不齐的情况下——提升召回精度的企业级解决方案

RAG做起来很简单,但想把RAG做好就需要想尽办法去提升数据的召回质量。

在RAG中文档处理可以说是一个重难点,特别是复杂文档的处理更是一言难尽;因此,面对这种现实问题,总不能直接摆烂,因此怎么在文档质量处理参差不齐的情况下,提升RAG的召回精度就是一个需要解决的问题。

文档处理的质量直接影响到RAG的召回效率,但目前文档处理是一个难点;因此怎么基于现有条件,提升RAG的召回精度?既然文档处理质量控制不了,那么就只能想别的办法,尽量弥补文档质量的不足。

提升RAG召回精度

关于RAG中的文档处理,目前主流的方式还是以人工介入为主,比如说对文档格式进行转换(word,pdf,ppt等转换成markdown),对文档进行人工分段;设置文档拆分长度等等。

虽然说人工已经尽可能的考虑文档完整性的情况下,其处理效果还是差强人意;因此,面对这种问题其实最好的解决方式让大模型自己去给文档做拆分,注意这里说的是大模型,而不是小模型。

为什么这么说?

原因在于随着大模型技术的发展,大模型的能力也变得越来越强,因此在某些情况下人工做的并一定比模型做的好,特别是这种对文档进行处理的场景,模型根据语义对文档进行拆分或处理,或许比人工做的要更好。

人工在对文档处理的情况下,一般是按照标题,段落或长度对文档进行拆分;而如果把文档直接丢给模型,让模型根据自己的理解对文档进行拆分,或许能更好地保证文档的语义完整性;而这种情况下,大模型的表现肯定会比小模型要好,这也是为什么在前面强调说是大模型,而不是小模型的原因。

当然,毕竟模型的上下文窗口有限,而且大模型对长文本处理存的效果并不是特别好;因此,面对较长的文档,还是需要人工进行初步的处理,才能交给模型去拆分。

OK,前面说了文档的一种处理方式,那么下面我们进入正题,怎么在文档质量参差不齐的情况下,来提升召回精度?

其实这个问题说简单也简单,说复杂也复杂;说简单是因为我们的目的很明确,那就是提升模型的召回精度;复杂是怎么提升这个召回精度?

下面我们就来介绍几种提升召回精度的方式:

  1. 同时使用稠密向量和稀疏向量

  2. 对分段的文档进行关键字提取

  3. 对分段文档进行总结提炼

  4. 同时使用标量检索和向量检索

同时使用稠密向量和稀疏向量

这种方式是基于向量数据库本身的一种特性,部分向量数据库比如说milvus支持稠密向量和稀疏向量,简单来说就是对分段内容进行两次向量化,一次是稠密向量,一次是稀疏向量。

在milvus向量数据库的官方文档中介绍,密集向量是捕捉语义关系的绝佳方法,而稀疏向量则是精确匹配关键词的高效方法。

因此,同时使用稠密向量和稀疏向量,能够从更多的维度对数据进行召回,当然也能够提升文档的召回质量。

对分段的文档进行关键字或主要内容提取

既然文档处理的质量参差不齐,并且用户问题可能比较简短的情况下,这时很难进行语义检索,甚至很多时候根据检索不到数据。

因此,在文档入库之前,我们可以使用模型先对已分段文档进行关键字提取,这样把提取的关键字作为标签,因此就可以在检索时就可以进行关键字匹配,当然也可以把标签向量化,进行标签语义匹配;这样在用户提问时,也对用户问题进行同样的操作,这样就可以使用更准确的关键字进行数据召回,提升召回质量。

对分段文档进行总结提炼

既然文档处理质量不齐,而且即使文档处理质量还行,但由于用户的问题较简短;那么我们就对文档内容进行总结提炼,然后再对总结之后的内容进行向量化,之后进行语义检索;这样也可以提升数据的召回质量。

同时使用标量检索和向量检索

在向量数据库中,一般情况下把文档内容进行向量化,但同时文档也存在一些元数据,这个元数据可以是文档本身的(文档名称,简要说明等),也可以是我们人为提取的(关键字标签)。

这时我们在检索时,就可以先根据这些元数据进行初步筛选,然后再进行语义筛选;这时通过多种召回方式的配合,就能更好地对数据进行召回。

当然,上面介绍的都是文档的召回策略问题;而且上面的几种召回策略并不是非此即彼的,很多时候可以多种联合使用;因此,通过以上召回策略召回数据之后,我们需要对召回的数据进行统一的处理,比如说去重,排序,重排序等多种操作,最后才是我们需要的数据。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/13 9:31:42

无需Anaconda臃肿包!轻量级Miniconda-Python3.9玩转PyTorch

轻量级Miniconda-Python3.9玩转PyTorch:告别臃肿,拥抱高效 在AI项目开发中,你是否曾遇到这样的场景?刚配好的环境,跑一个新模型却提示torch not found;团队成员复现论文实验时,因为CUDA版本不匹…

作者头像 李华
网站建设 2026/3/13 21:08:19

网站内容自纠自查网络安全隐患和防范措施

开展网站内容自纠自查,旨在排查网络安全隐患,构建牢固的内容防线。这项工作不仅要关注技术层面的防攻击,更要聚焦信息层面的防泄露、防差错、防篡改。以下是自查中应重点关注的隐患范围、相应的防范措施,以及如何利用智能化工具提…

作者头像 李华
网站建设 2026/3/13 3:09:14

Miniconda-Python3.9镜像安装PyTorch GPU版完整教程(2024最新)

Miniconda-Python3.9镜像安装PyTorch GPU版完整教程(2024最新) 在深度学习项目开发中,环境配置往往是第一步,也可能是最令人头疼的一步。你是否曾遇到过这样的场景:好不容易跑通别人的代码,却因为本地 Pyt…

作者头像 李华
网站建设 2026/3/14 7:21:03

GitHub热门项目推荐:基于Miniconda-Python3.9的AI实验复现仓库

GitHub热门项目推荐:基于Miniconda-Python3.9的AI实验复现仓库 在人工智能研究日益深入的今天,一个让人哭笑不得的现象却屡见不鲜:论文中描述的SOTA模型,在复现时却频频“翻车”。不是缺少某个依赖库,就是版本冲突导致…

作者头像 李华
网站建设 2026/3/13 0:11:08

计算机毕业设计springboot对于股票实时信息系统 基于SpringBoot的证券行情实时监测与交易辅助平台 融合SpringBoot框架的股市动态信息实时推送系统

计算机毕业设计springboot对于股票实时信息系统uaqegip4 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。在A股与全球资本市场联动日益紧密、个人投资者占比持续走高的当下&#…

作者头像 李华
网站建设 2026/3/13 2:28:40

RADI-5.15-5.25-SMT-2WR-20WPK-R25,20 W的微波隔离器, 现货库存

型号介绍今天我要向大家介绍的是 RADITEK 的一款微波隔离器——RADI-5.15-5.25-SMT-2WR-20WPK-R25。 它允许信号单向传输,有效减少反射和干扰,从而提升系统稳定性与信号质量,并常用于保护敏感设备(如放大器)免受功率回…

作者头像 李华