news 2026/6/9 21:13:35

PDF解析+大模型=翻车?手把手教你构建可靠的知识库系统,建议收藏!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
PDF解析+大模型=翻车?手把手教你构建可靠的知识库系统,建议收藏!

文章揭示了PDF文档解析中,大模型(如Coze)在处理非结构化数据时存在准确性问题,简单问题可能给出错误且不一致结果。在高精度要求场景下,1%错误率仍需大量人力验证。作者提出解决方案包括人工数据清洗、规范化问答对、双层保险机制等,质疑问答场景中是否必须引入重量级大语言模型,认为可通过低成本方式构建更可靠的系统。


比如有一些这样的pdf文档内容,里面有关于每项服务的办理流程,为便于截图,随意展示几项,比如:

门诊就诊需要的办理要件,路径和办理时限:

住院服务需要的办理要件,路径和办理时限:

出院服务需要的办理要件,路径和办理时限:

投诉举报需要的办理要件(无),路径和办理时限:

其他还有很多内容,但是这些内容都有一个共同的特征:无结构数据,除非人工整理成结构数据。

现在基本上每个知识库服务商都能解析pdf 文档,像coze,dify等,为了方便起见,我们把它直接喂给coze,利用它们的自有能力来分析文档。

随后,我们来一个简单测试。就拿上面的截图内容,所有服务办理期限都是即时办结,但是投诉举报 需要3-7工作日。

我们就拿这个来问问大模型:

这就是coze 智能体给出的应答,同样的问题,多次询问给出不同的结果,而且每次都不正确。

看到这种结果,着实有点儿让人后背发凉。

如果拿着大厂背景的技术方案去服务客户,结果可想而知,一定会被骂得狗血淋头。

大模型本身还有很多的技术问题没有完全解决,以上这个问题也许不是特别严重,但是至少我们能够窥见类似这样的问题一定会大量存在,在一些对问题准确性要求较高的场景下,哪怕有1%的错误率,我们都没法放心去使用它,因为哪怕1%的错误率,仍然需要花费大量人力去保证结果正确。

但是这个问题我们有没有不费太高的代价解决吗?

肯定有。

至少在这个案例中不能完全依赖pdf的解析能力,数据的清洗工作最好还是需要人工去兜底把关。

比如在我们的实时互动系统管理后台中,我们提供了添加问答对的能力:

规范化的问答内容逐项增加到私有知识库:

在进行互动问答中,这些信息以高优先级响应,当没有匹配到这些信息,才会走底层大模型的私有知识库。

但是问答对也存在问题,比如上面内容中所有服务办理时限都是即时办结,但是只有一项举报投诉服务是3-7工作日。

这导致每一服务都要增加一条知识对,这显得有些繁琐。

除非能支持这样一条规则:“除了举报投诉的办理时限是3-7工作日,其他服务都是即时办结”。

但是这种推理能力需要大语言模型的支持。

还有一个问题,比如用户问“住院服务需要什么要件”,这个问题一旦到用户侧有可能变成上百种不同的问法,所以系统必须具备语意分析能力。

这其实已经引出一个问题:也就是在当前问答场景中,是否有必要引入大语言模型这种重量级的产品?

至少从我们的实践看来是不必的。

但是如果图省事,比如我就想利用一些智能体的基础能力,那么结合大语言模型是很好的选择。

那这样在双层保险中,问答会更准确。

但是没有智能体,同样也能在低成本代价中达到同样的目的。

如何学习AI大模型?

如果你对AI大模型入门感兴趣,那么你需要的话可以点击这里大模型重磅福利:入门进阶全套104G学习资源包免费分享!

这份完整版的大模型 AI 学习和面试资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

这是一份大模型从零基础到进阶的学习路线大纲全览,小伙伴们记得点个收藏!


第一阶段:从大模型系统设计入手,讲解大模型的主要方法;

第二阶段:在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段:大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段:大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段:大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段:以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段:以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

100套AI大模型商业化落地方案

大模型全套视频教程

200本大模型PDF书籍

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

LLM面试题合集

大模型产品经理资源合集

大模型项目实战合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/7 6:12:51

山东道恩高分子材料在越南买下的,不只是一个工厂

过去几年,越南制造业的变化更多是通过订单细节被感知的。一些原本在国内完成交付的项目,开始要求在越南本地供货。一些新项目在立项阶段,就提前询问供应商是否具备当地生产条件。这样的变化没有集中爆发,但却在持续出现&#xff0…

作者头像 李华
网站建设 2026/6/7 11:01:18

【软件推荐】壁纸引擎(Wallpaper Engine)免安装中文版

类型: 工具 链接:https://pan.quark.cn/s/26312df32633 游戏简介 Wallpaper Engine 使您可在 Windows 桌面上使用动态壁纸。它支持各种类型的动画壁纸,包括 3D 和 2D 动画、网站、视频、乃至某些应用程序。选择现有壁纸,或创建自…

作者头像 李华
网站建设 2026/6/9 22:27:46

手写系列:面试官问我 new 的原理,我直接甩出三个版本

今天我们来聊聊 JavaScript 中那个既熟悉又神秘的 new 操作符。相信很多小伙伴在面试时都经历过这样的“名场面”:面试官微微一笑,推过来那个熟悉的键盘:“来,能不能手写一个 new 的实现?” 这时候,如果你…

作者头像 李华
网站建设 2026/6/9 8:31:02

【开题答辩全过程】以 基于hadoop的电影推荐系统的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

作者头像 李华
网站建设 2026/6/7 12:28:19

GP8630N I2C和PWM转±10V/0-5V/0-10V/4-20mA DAC模块原理图设计,已量产

目录 1、核心 DAC 驱动:GP8630N 的参数落地设计 2、电源系统:支撑 12V 对称输出的核心逻辑 3、核心参数解读:不止于 “数字好看” 3.1、16bit(I2C)+0.2% 满量程误差:工业级精度的底线 3.2、多类型输出:一套模块覆盖主流模拟信号需求 3.3、宽输入供电:适配不同主控…

作者头像 李华
网站建设 2026/6/9 0:26:38

考研资源合集

21.【2026年考研英语】 文件大小: 20.5GB内容特色: 全程带学,词汇阅读写作翻译一站式搞定适用人群: 备战2026考研英语一/二的全体考生核心价值: 20.5GB高清视频讲义,系统提分冲刺名校下载链接: https://pan.quark.cn/s/98d2f4795af1 【25考研】考研专业…

作者头像 李华