一、 引言(Introduction)
业务背景:许多关键业务信息(如:客户发送的转账截图、入群申请说明、包含联系方式的海报)都以图片形式存在于聊天记录中。
技术痛点:传统的 UI 自动化只能获取“这是一张图片”,无法感知其内容,导致自动化流程在图片环节“断流”。
解决方案:引入AI 视觉能力(OCR)。RPA 负责从窗口截取或下载图片,OCR 引擎负责将图像信息转化为机器可读的文本,实现真正的全数据链路自动化。
二、 RPA + OCR 的技术链路拆解
要实现图片信息的自动处理,需要经过以下四个核心步骤:
2.1 图片定位与获取
气泡识别:识别聊天窗口中
ControlType为Image或包含图片特征的消息气泡。获取方式:
方式 A(非侵入):利用 RPA 控件属性获取该图片在屏幕上的
BoundingRectangle,执行区域截图。方式 B(文件级):模拟右键点击图片 $\rightarrow$ “另存为”,将图片保存到本地指定目录。
2.2 OCR 引擎的选型与集成
本地引擎(高隐私):集成PaddleOCR或Tesseract。优点是数据不离境,响应快,适合处理手机号、金额等敏感信息。
云端 API(高精度):调用百度、阿里或腾讯的通用 OCR 接口。优点是识别率极高,支持复杂排版和手写体。
2.3 文本结构化处理
关键词匹配:从 OCR 返回的原始文本中,利用正则表达式(Regex)提取目标字段。
示例:识别转账截图中的“金额”和“交易时间”。
示例:识别海报中的“微信号”或“活动关键词”。
三、 实战场景应用:自动化凭证审核
以“客户发送付款截图后自动开通权限”为例:
触发:RPA 监控到新消息为图片。
动作:截图图片区域,调用 OCR。
判断:* 如果文本中包含“支付成功”及正确的“商户名称”。
提取交易单号。
后续:RPA 自动在业务系统查询单号,确认无误后在群内回复“权限已开通”。
四、 性能优化与稳定性策略
图像预处理:在送入 OCR 前,利用 OpenCV 进行灰度化、去噪或二值化处理,显著提升识别率。
异步处理架构:图片识别通常比文字处理慢。建议采用“生产者-消费者”模型:RPA 进程负责抓取图片放入队列,独立的 OCR 进程负责后台解析,避免阻塞 UI 操作流。
异常重试逻辑:遇到模糊图片或加载不全的情况,设置重试机制,或在识别置信度低于 0.8 时触发人工介入告警。
五、 结论与总结
总结:OCR 是 RPA 的“眼睛”。结合了 AI 视觉后,RPA 的应用范围从结构化文字扩展到了广阔的非结构化图像领域。
核心价值:实现了业务流程的“语义级”自动化,能够处理更复杂、更贴近真实人工场景的任务。
实施建议:客户联系功能启用步骤
操作步骤
- 权限申请
请通过QiWe开放平台管理后台,提交“客户联系”功能的使用权限申请。 - 获取访问凭证
请使用企业corpidcorpid(企业ID)和corpsecretcorpsecret(应用密钥)作为参数,调用相应接口以获取access_tokenaccess_token(访问令牌)。
目的
完成上述轻量级开发部署后,即可启用通过接口进行客户联系管理的能力。