news 2026/5/13 22:05:15

29.6K star!颠覆传统RAG向量检索,爆火开源让金融问答准确率干到98.7%

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
29.6K star!颠覆传统RAG向量检索,爆火开源让金融问答准确率干到98.7%

用大模型读长文档,你是不是也经常被气到,答案看着头头是道,一翻原文全是编的。

其实还真别怪AI模型,问题出在检索上。主流RAG方案用的都是向量检索,先把文档切成小段,算向量存进数据库,提问的时候靠语义相似度去匹配。

因为向量匹配只看词语像不像,不管逻辑对不对。这事在AI圈子里有个说法叫vibe retrieval,凭感觉检索,蒙对了运气好,蒙错了你连错在哪都不知道。

最近有一个挺炸的开源超29600星的PageIndex,颠覆了传统RAG玩法,把这个问题解决了。

开源地址:https://github.com/VectifyAI/PageIndex

PageIndex的核心技术思路是不做向量匹配,不切块,而是让大模型像人一样翻文档。

你拿到一本厚书要查东西,肯定先看目录对吧,锁定章节再往下看小节标题,一层一层缩小范围直到找到具体段落。

PageIndex就是把这个过程教给了大模型。它拿到文档后先自动梳理出一棵完整的结构化目录树,每个节点都有标题、摘要和对应页码。

提问的时候大模型沿着这棵树一步步推理,先定大方向再逐步聚焦,最终精确定位到你需要的那个段落。

相似不等于相关四个字谁都懂,但整个RAG行业一直在向量检索这条路上死磕,没几个人停下来想过这条路本身对不对。

PageIndex直接跳出来说这条路有问题,用推理替代搜索,而且甩出了硬数据。在Finance Bench这个金融文档问答数据集上,准确率干到了98.7%。这个数字放在专业文档分析领域就是碾压。

PageIndex具体好用在哪,选几个最实用的功能给大家瞅瞅。找到的东西能看到来源。

以前向量检索返回一段话你根本不知道它从哪来的。PageIndex每次都会告诉你内容来自第几页哪个章节,推理路径是什么。

就像让同事帮你查资料,他不仅把答案递过来,还把书页码都标好了,你一翻就能验证。金融、法律这种一个数字都不能搞错的场景,这是刚需。

能记得你之前聊了什么,传统向量检索每次提问都是独立的,系统不知道你上回问了啥。但PageIndex的检索带对话历史,能结合前面的上下文做更精准的推理。

你先问了一家公司的营收,接着追问增长率,它知道你还在聊营收这个话题,不会乱跑。

审计报告、招股书、学术论文动不动上百页,章节嵌套章节、图表穿插在正文中间,传统切块处理简直是灾难。

但PageIndex本身就是按文档自然层级组织的,它模仿人类专家的阅读方式,先看大标题定方向,再看小标题缩范围,最后落到具体段落。

这种树搜索思路跟谷歌的AlphaGo下棋有点像,都是在决策树上做推理和选择,只不过一个在棋盘上落子,一个在文档树里定位。

很多人以为这种方案只适合单个长文件,但PageIndex在文档之上还搭了一层文件系统层级,可以跨多篇文档构建更大的检索树。

理论上能扩展到百万级文档量,企业可以在整个文档库里用同一种方式检索,不用再纠结什么场景该用搜索引擎什么场景该用大模型。

上手也比我预想的简单太多了。从GitHub拉代码,装一下依赖,主要就是PyMuDF解析PDF和LiteLLM对接大模型,一条命令的事。

然后配一下大模型密钥,建个.env文件把APIKey填进去就行,OpenAI、Anthropic、Google都兼容。

不过也有几点需要注意,目前主要支持PDF和Markdown,Word和Excel要先转格式。

每次检索都需大模型推理,调用成本比纯向量检索高一些,速度也稍慢一点,但对准确性比速度重要的专业场景来说还是不错的。

自建版用的是标准PDF解析,扫描件和图片密集型文档效果不如他们的云服务版。项目还在活跃开发中,核心功能已经很稳,周边功能持续完善。

做金融分析、法律研究、学术研究,每天要从大量专业文档里提取信息的人,或者想给应用接一个靠谱文档问答能力的开发者,这个项目值得好好研究。

学AI大模型的正确顺序,千万不要搞错了

🤔2026年AI风口已来!各行各业的AI渗透肉眼可见,超多公司要么转型做AI相关产品,要么高薪挖AI技术人才,机遇直接摆在眼前!

有往AI方向发展,或者本身有后端编程基础的朋友,直接冲AI大模型应用开发转岗超合适!

就算暂时不打算转岗,了解大模型、RAG、Prompt、Agent这些热门概念,能上手做简单项目,也绝对是求职加分王🔋

📝给大家整理了超全最新的AI大模型应用开发学习清单和资料,手把手帮你快速入门!👇👇

学习路线:

✅大模型基础认知—大模型核心原理、发展历程、主流模型(GPT、文心一言等)特点解析
✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑
✅开发基础能力—Python进阶、API接口调用、大模型开发框架(LangChain等)实操
✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用
✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代
✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经

以上6大模块,看似清晰好上手,实则每个部分都有扎实的核心内容需要吃透!

我把大模型的学习全流程已经整理📚好了!抓住AI时代风口,轻松解锁职业新可能,希望大家都能把握机遇,实现薪资/职业跃迁~

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/13 22:04:18

电商数据采集实战:从反爬策略到架构设计,打造稳定高效爬虫系统

1. 项目概述与核心价值最近在逛开源社区的时候,发现了一个挺有意思的项目,叫caiqinghua/clawshopping。光看名字,你大概能猜到它和“抓取”以及“购物”有关。没错,这是一个专注于电商数据采集的开源工具。对于做数据分析、价格监…

作者头像 李华
网站建设 2026/5/13 22:04:17

STC8H8K64U单片机IAP升级实战:从FLASH规划到代码重定位

1. STC8H8K64U单片机IAP升级的核心价值 第一次接触STC8H8K64U的IAP功能时,我盯着官方文档发呆了半小时——这玩意儿不就是给产品装了个"无线升级开关"吗?想象一下,你的智能硬件设备已经部署在用户现场,突然发现有个关键…

作者头像 李华
网站建设 2026/5/13 22:03:31

跨空间而非跨设备:镜像视界三维反演驱动全域轨迹无缝贯通

跨空间而非跨设备:镜像视界三维反演驱动全域轨迹无缝贯通在全域智能管控的技术迭代浪潮中,行业长期陷入一个认知误区:将跨镜头目标跟踪的难点,归咎于设备协同不足,一味追求摄像机硬件联动与设备协议兼容,却…

作者头像 李华
网站建设 2026/5/13 22:01:25

深度测试在2D渲染中的性能优化实践

1. 深度测试在2D渲染中的创新应用在移动设备上,2D应用和游戏的渲染性能优化一直是个棘手的问题。传统2D渲染采用简单的后向前(back-to-front)绘制顺序来处理透明混合,这种方法虽然直观,但存在严重的过度绘制&#xff0…

作者头像 李华
网站建设 2026/5/13 21:58:07

魔兽争霸3终极修复指南:让经典游戏在现代电脑上流畅运行

魔兽争霸3终极修复指南:让经典游戏在现代电脑上流畅运行 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3的各种兼容性问题…

作者头像 李华