news 2026/4/1 18:07:09

Pathway × PaddleOCR:握手知名开源框架,打通“动态文档”到实时 RAG 的数据入口

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Pathway × PaddleOCR:握手知名开源框架,打通“动态文档”到实时 RAG 的数据入口

处理实时数据的场景中,即时执行 OCR 能力至关重要。企业文档流通常呈现出格式异构、结构非标准化、版本高频变动的特征;若仍依赖离线批处理与人工重跑机制,索引时效性与 RAG/Agent 的响应质量将难以保障。因此,能够在数据抵达与更新瞬间完成解析,并输出稳定、可消费的结构化结果,是适配动态数据源的基础能力。

知名开源框架 Pathway 强调“Live Data / Real-time pipeline”,通过可组合的 pipeline,把数据读取、解析、写出与后续 RAG 应用串成一条可持续运行的实时数据链路。目前,PaddleOCR 已深度集成至 Pathway ,作为其实时 pipepline 中的解析引擎,为 Pathway 提供了核心感知与结构化支撑,实现文本与版面结构的高效识别与标准化输出,并在文档更新时自动触发解析与结果同步,使实时数据链路中的索引与 RAG 应用始终基于最新、可消费的结构化内容运行。

动态文档稳定变可用数据

PaddleOCR 的解析能力嵌入 Pathway 的实时数据流链路后能够成为其流式解析节点,让 OCR 结果具备可更新、可追踪、可增量传播的数据语义,具体体现在三个层面:

  • 覆盖不同解析难度:PaddleOCRParser中,复杂版面默认采用 PP-StructureV3 完成版面还原与结构提取,轻量场景则采用 PaddleOCR 进行高效文本抽取。由此,上游产出从一次性文本结果升级为可复用的结构化数据资产,为长期运行的知识库与实时 RAG ingestion 提供稳定的数据基座;

  • 解析结果具备变更语义:PaddleOCRParser的参数设计面向生产,支持异步执行、缓存策略,以及 PDF 转图/大图保护项等,使 OCR 处理从离线脚本变为持续运行的 pipeline 节点,让解析链路能够在文档更新时以更低成本完成重算并保持稳定输出;

  • GPU 兼容推动可扩展吞吐:PaddleOCR 对 GPU 计算的良好兼容性能够为 Pathway 的持续运行 pipeline 提供高性能解析底座,确保在文档量或更新频率提升时,降低解析阶段可能出现的链路延迟,从而让“文档变更→解析更新→索引/应用同步刷新”的实时闭环具备可扩展性。

快速上手

在 Pathway迅速调用PaddleOCR

为了让这些能力更容易在工程链路中复用,PaddleOCR 的解析能力在 Pathway 中已被封装为PaddleOCRParser,可直接作为 pipeline 的上游解析节点接入,并在数据更新时持续产出结构化结果。具体操作流程如下:

1. 快速安装准备环境

  • 安装 Pathway 文档解析 xpack

Pathway 在xpack-llm-docs中提供了用于 OCR 的解析器PaddleOCRParser

pip install "pathway[xpack-llm-docs]"
  • 安装 PaddleOCR

PaddleOCRParser需要本地已安装paddlepaddle。如果你使用 CPU 环境,可按如下方式安装(GPU 环境请按官方指引选择对应版本):

pip install "paddlepaddle>=3.2.0"

2. 在 Pathway 中调用 PaddleOCRParser

在 Pathway 中,你可以直接导入并实例化PaddleOCRParser,用于解析 images / PDFs / PPTX。

from pathway.xpacks.llm.parsers import PaddleOCRParser parser = PaddleOCRParser()

PaddleOCRParser支持若干关键参数,常用包括:

  • pipeline:指定 Paddle 侧 OCR pipeline(支持PaddleOCR/PPStructureV3,默认使用PPStructureV3);

  • concatenate_pages:多页文档是否合并输出;

  • async_mode:执行模式(如batch_async/fully_async);

  • cache_strategy:缓存策略,用于提升重复解析场景效率。

更多详情参见:

https://pathway.com/developers/api-docs/pathway-xpacks-llm/parsers/#pathway.xpacks.llm.parsers.PaddleOCRParser

3. 示例:构建一个本地文件 OCR 流水线

下面以本地文件为例:使用 Pathway 读取二进制文件 → 调用 PaddleOCRParser 解析 → 写出 JSONL → 运行 pipeline。

import pathway as pw from pathway.xpacks.llm.parsers import PaddleOCRParserfiles_table = pw.io.fs.read( "./data", format="binary", object_size_limit=None, with_metadata=True,) parser = PaddleOCRParser(concatenate_pages=True)parsed_table = files_table.select(parsed_text=parser(pw.this.data)[0][0]) pw.io.jsonlines.write(parsed_table, "./output.jsonl")pw.run()

输出示例为 JSON Lines 结构,便于后续索引、检索或写入数据湖/向量库等链路使用。

4. 用 streaming 模式追踪文件变化

当输入文件发生替换或更新时,Pathway 可以在streaming模式下自动感知变化、触发重新 OCR,并将新旧结果以增量形式更新到输出中。

5. 把 PaddleOCR 作为实时解析器接到 RAG 问答模板

在 Pathway 的 Q&A RAG 模板中,可通过配置将解析器切换为PaddleOCRParser,让 RAG 流水线直接消费实时 OCR 的解析结果。

$parser: !pw.xpacks.llm.parsers.PaddleOCRParser concatenate_pages: True

文档到数据

文档解析变成实时节点

本次 PaddleOCR 与 Pathway 的深度技术集成,在应用环境中形成了“职责清晰”、闭环运行的能力协同。

PaddleOCR 位于数据提取上游,将复杂文档稳定解析为结构化结果,从源头保障解析质量、结构表达与可索引性;Pathway 则基于其 Live Data 增量执行体系,将结构化输出转化为可传播的更新事件,使文档新增、替换与版本演进能够驱动下游链路持续同步刷新,从而避免离线重建与人工干预带来的高运维成本。

当“结构化解析能力”与“增量更新机制”实现联通,文档型 RAG 不再局限于一次性构建,而具备长期运行特性:数据持续变化时索引自动演进,应用始终基于最新且可追溯的文档证据运行,整体系统的可靠性与工程可控性得到显著提升。

  • 关于 Pathway

Pathway 是一款开源实时数据处理框架,面向 Live Data / 实时增量计算 场景,支持用同一套 pipeline 将数据接入、解析、更新与下游应用联动,适配构建可长期运行的实时数据管线与 RAG 工作流,具备完善的工程化能力与生态扩展性,适合在生产环境中持续处理不断变化的文档与数据源。目前,Pathway 在 GitHub 上已获得超59k 星标

👉了解 Pathway:

https://github.com/pathwaycom/pathway

  • 关于 PaddleOCR

PaddleOCR 是百度飞桨生态中的 OCR 与文档智能引擎,提供从文本识别到文档理解的全流程解决方案。聚焦真实业务场景中的文档数字化需求,提供可规模化部署的文字识别与语义解析能力。它覆盖110+种语言的精准识别,支持图文混排、表格结构、公式符号等复杂文档元素的语义边界精准解析,能够输出符合 JSON / Markdown 等标准格式的结构化数据,实现从图像输入到后续业务系统数据处理与智能应用无缝衔接的全流程自动化。 PaddleOCR 支持 Web API 、 SDK 集成及 Docker 容器化部署等多种部署与集成方式,满足从轻量级应用到企业级系统的全场景需求,加速 AI 能力在实际业务中的落地应用。截至2026年2月,PaddleOCR 在 GitHub 上已获得超 70k 星标。

👉了解 PaddleOCR :

https://github.com/PaddlePaddle/PaddleOCR

加入我们

诚挚邀请全球相关开源项目、开发者工具链团队及各类行业伙伴,与文心大模型、飞桨共建开源生态,共同推进文档解析、知识智能与企业级AI技术的普及与落地。

与文心大模型(ERNIE)、飞桨(PaddlePaddle)开展相关开源生态合作,伙伴可获得:

  • 与文心大模型、飞桨的深度技术对接与集成支持;

  • 覆盖模型、框架、推理、文档解析、数据治理等全栈生态资源;

  • 面向行业的联合解决方案打造与联合发布机会;

  • 内容生态、市场活动、行业推广等多渠道赋能。

让我们一起,以开源与技术的力量,构建下一代智能化知识生态。

扫码加入官方技术交流群

关注【飞桨PaddlePaddle】公众号

获取更多技术内容~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/27 15:07:33

BPE 词表构建与编解码(英雄联盟-托儿索语料)

BPE 词表构建与编解码说明 一、BPE 背景 BPE(Byte Pair Encoding,字节对编码) 是一种数据压缩与分词算法,后被广泛用于 NLP 的词表构建。其核心思想是:从字符(或字节)级别出发,反复将…

作者头像 李华
网站建设 2026/3/31 6:11:41

技术日报|OpenAI技能库逆袭登顶,Claude-Mem四连冠终结

🌟 TrendForge 每日精选 - 发现最具潜力的开源项目 📊 今日共收录 7 个热门项目,涵盖 50 种编程语言🌐 智能中文翻译版 - 项目描述已自动翻译,便于理解🏆 今日最热项目 Top 10 🥇 openai/skills…

作者头像 李华
网站建设 2026/3/31 3:49:12

护航春运,全国首个省级高速高精度地图竣工验收

2月3日,广东交通集团“高速公路高精度数字底图构建及应用”一期工程顺利通过竣工验收。作为全国首个覆盖超万公里高速公路的省级数字图底座,该项目在通过验收的同时已全面“上岗”,正深度赋能2026年春运,为公众出行提供数字化保障…

作者头像 李华
网站建设 2026/3/28 12:14:04

基于 MATLAB 的调压调速控制系统仿真分析(开题报告)

2026 届本科毕业设计(论文)开题报告 学院:电力学院 专业:电气工程及其自动化 毕业设计(论文)题目 基于 MATLAB 的调压调速控制系统仿真分析 学生姓名 班级 学号 研究目的和意义: 目的:本次基于 MATLAB 的调压调速控制系统仿真分析研究,旨在深入探究直流调压调速控制系统的…

作者头像 李华
网站建设 2026/3/15 22:39:19

阿里千问,崩了!

2月6日,阿里旗下的千问 APP 正式上线“春节 30 亿元大免单”活动,用一场声势浩大的“奶茶攻势”吸引用户:只要用 AI 说一句话,就能免费点奶茶。这次 30 亿元的春节请客计划,不仅是阿里历年春节活动中投入最大的一次&am…

作者头像 李华