news 2026/2/1 2:21:14

AutoGLM-Phone金融应用探索:账单自动导出AI代理部署

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AutoGLM-Phone金融应用探索:账单自动导出AI代理部署

AutoGLM-Phone金融应用探索:账单自动导出AI代理部署

1. 为什么手机端AI代理正在改变金融操作方式

你有没有过这样的经历:每月初打开银行App,反复点击“账单查询”“导出PDF”“发送邮箱”,再手动整理成Excel?整个过程耗时5分钟,却重复了整整12次——因为要处理12张不同银行卡的流水。这不是效率问题,而是人机交互范式的滞后。

AutoGLM-Phone不是又一个聊天机器人,它是一套能真正“看见”手机屏幕、“理解”界面逻辑、“动手”完成任务的AI代理框架。在金融场景中,它的价值不在于多会说话,而在于能否准确识别“招商银行App首页右上角三个点图标”、能否在弹出菜单中精准点击“导出账单”、能否在文件选择器里选中“近30天”并确认保存——这些动作,过去必须由人来完成;现在,只需一句自然语言:“把上个月所有银行卡的账单导出为Excel,发到我的工作邮箱”。

这背后是视觉语言模型(VLM)与自动化控制能力的深度耦合:它不靠预设脚本,而是实时解析屏幕像素,结合UI元素语义推理下一步该点哪里、滑到哪、输什么。当AI开始“看”和“做”,金融操作才真正从“人驱动”走向“意图驱动”。

2. AutoGLM-Phone核心能力解构:不只是“会点屏幕”

2.1 多模态理解:让AI真正读懂手机界面

AutoGLM-Phone的底层不是OCR+规则匹配,而是端到端训练的视觉语言模型。它把整张手机截图当作输入,同时理解:

  • 视觉结构:按钮位置、文字区域、图标形状、滚动条状态
  • 语义信息:当前页面是“登录页”还是“交易明细页”,“导出”按钮是否可点击,“筛选时间”下拉框是否已展开
  • 上下文关系:顶部导航栏标题与底部Tab栏当前选中项是否一致,弹窗是否遮挡了主界面关键按钮

举个真实例子:当指令是“导出建行App里2024年6月的信用卡账单”,模型会先识别状态栏时间确认设备时区,再定位App图标进入,识别首页“信用卡”入口,点击后在二级页面找到“账单查询”,识别日期筛选控件,点击“自定义”,输入起止时间,最后在结果页找到“导出”按钮——每一步都基于对当前屏幕的实时理解,而非硬编码坐标。

2.2 ADB自动化执行:安全、可控、可审计的操作引擎

AutoGLM-Phone不依赖无障碍服务或Root权限,而是通过标准ADB协议实现设备控制。这意味着:

  • 操作全程可追溯:每条adb shell input tap x y命令都记录日志,包括触发时间、屏幕截图、执行结果
  • 敏感操作强管控:涉及转账、支付、密码输入等动作时,系统自动暂停并弹出确认提示,支持人工接管
  • 跨设备兼容性强:同一套指令逻辑,在华为Mate60、小米14、三星S24上均能稳定执行,无需为不同厂商适配

更重要的是,ADB连接天然支持WiFi远程调试。你完全可以在公司电脑上,控制家里放在充电座上的旧安卓机,让它每天凌晨自动登录网银、下载账单、上传至NAS——人不用在场,事照常办。

2.3 意图解析与流程规划:从一句话到一串动作的智能翻译

用户说“把上个月所有银行卡的账单导出为Excel”,AI需要完成三层推理:

  1. 意图拆解:识别核心动词“导出”,宾语“账单”,约束条件“上个月”“所有银行卡”“Excel格式”
  2. 路径规划:确定需依次操作的App列表(招行、工行、建行…),每个App内操作序列(启动→登录→查账单→选时间→导出)
  3. 异常处理预案:若某App登录失败,是重试三次?跳过该卡?还是通知用户?这些策略均可配置

这种能力让AutoGLM-Phone区别于传统RPA工具——后者需要为每个App单独录制脚本,而前者用统一模型泛化理解所有Android界面,极大降低维护成本。

3. 本地控制端部署全流程:三步接入你的真机

3.1 环境准备:轻量级,无GPU依赖

与云端大模型不同,Open-AutoGLM的控制端纯Python实现,对本地机器要求极低:

  • 操作系统:Windows 10+/macOS 12+(Linux同理,略过图形界面配置即可)
  • Python版本:3.10+(推荐使用conda创建独立环境,避免包冲突)
  • 安卓设备:Android 7.0+(实测红米Note8、Pixel 3a均可稳定运行)
  • 关键工具:ADB平台工具(无需完整Android SDK)

小技巧:Mac用户可直接用Homebrew安装ADB
brew install android-platform-tools
安装后终端输入adb version显示版本号即成功

3.2 手机端设置:5分钟完成可信连接

很多用户卡在第一步——手机连不上。其实只需三个关键动作:

  1. 开启开发者模式:设置 → 关于手机 → 连续点击“版本号”7次(数到第5次时会出现“还有2次”的提示,避免误点)
  2. 启用USB调试:返回上一级 → 开发者选项 → 找到“USB调试”并开启(注意:部分国产机还需开启“USB调试(安全设置)”)
  3. 安装ADB Keyboard:这是实现文字输入的关键
    • 下载APK(GitHub Release页提供直链)
    • 安装后进入“设置 → 语言与输入法 → 当前键盘”,将默认输入法切换为“ADB Keyboard”
    • 验证方法:在微信聊天框长按输入框,若出现“粘贴”选项且能正常输入中文,说明生效

重要提醒:首次连接时,手机会弹出“允许USB调试吗?”提示,务必勾选“始终允许”,否则每次重启都要确认。

3.3 控制端代码部署:一行命令启动AI代理

# 1. 克隆官方仓库(国内用户建议加 --depth 1 加速) git clone --depth 1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 创建虚拟环境(推荐,避免污染全局Python) python -m venv venv source venv/bin/activate # macOS/Linux # venv\Scripts\activate # Windows # 3. 安装依赖(含ADB通信库与HTTP客户端) pip install -r requirements.txt pip install -e .

此时控制端已就绪,但还缺最关键的一环:AI大脑。

4. 云端模型服务对接:让手机拥有9B参数的“眼睛”和“手”

AutoGLM-Phone采用“端云协同”架构:手机负责屏幕采集与动作执行,云端负责高算力的视觉理解与决策规划。我们以autoglm-phone-9b模型为例说明对接要点。

4.1 服务端部署前提(简要说明,非本文重点)

  • 云服务器:推荐8核16G内存 + 1张RTX 4090(vLLM推理优化后,9B模型显存占用约12GB)
  • 模型加载:使用vLLM启动,关键参数示例
    python -m vllm.entrypoints.api_server \ --model zai-org/autoglm-phone-9b \ --tensor-parallel-size 1 \ --max-model-len 4096 \ --port 8800 \ --host 0.0.0.0
  • 端口映射:确保云服务器防火墙放行8800端口,并配置Nginx反向代理(可选,用于HTTPS加密)

4.2 本地控制端连接配置

获取设备ID与服务地址后,执行以下命令:

python main.py \ --device-id 1234567890ABCDEF \ # adb devices输出的第一列 --base-url http://123.56.78.90:8800/v1 \ # 云服务器公网IP+端口 --model "autoglm-phone-9b" \ "导出招商银行App中2024年6月1日至6月30日的储蓄卡账单为Excel,发送到finance@company.com"

参数详解

  • --device-id:USB连接时为设备序列号;WiFi连接时为192.168.1.100:5555格式
  • --base-url:必须带/v1后缀,这是vLLM API标准路径
  • 指令字符串:支持中文,长度建议<200字,避免歧义(如“上月”不如“2024年6月”明确)

4.3 Python API调用:嵌入自有系统更灵活

若需集成到企业财务系统,直接调用SDK比命令行更可控:

from phone_agent.agent import PhoneAgent from phone_agent.adb import ADBConnection # 初始化连接管理器 conn = ADBConnection() conn.connect("192.168.1.100:5555") # WiFi连接 # 创建AI代理实例 agent = PhoneAgent( device_id="192.168.1.100:5555", base_url="http://123.56.78.90:8800/v1", model_name="autoglm-phone-9b" ) # 执行金融任务(返回结构化结果) result = agent.run( instruction="导出工商银行App近30天交易明细为CSV", timeout=180 # 最长等待3分钟 ) if result.success: print(f" 账单已导出至:{result.output_path}") print(f" 共提取{result.transaction_count}笔交易") else: print(f"❌ 执行失败:{result.error_message}") # 可触发告警或人工介入流程

5. 金融场景实战:从指令到账单的完整闭环

我们以“月度多银行账单归集”这一高频需求为例,展示AutoGLM-Phone如何落地:

5.1 任务分解与执行日志(真实截取)

步骤AI理解内容实际执行动作耗时
1识别桌面“招商银行”图标adb shell input tap 320 8500.8s
2检测登录页“手机号输入框”adb shell input text "138****1234"1.2s
3定位“账单查询”按钮(坐标动态计算)adb shell input tap 540 12200.5s
4在时间筛选弹窗选择“自定义”adb shell input tap 210 14500.3s
5输入起止日期(调用ADB Keyboard)adb shell input text "2024060120240630"2.1s
6点击“导出”并等待文件生成adb shell input tap 920 21004.7s

全程无需人工干预,所有操作基于实时屏幕分析,平均单卡处理时间<45秒。

5.2 输出成果与后续处理

AI代理完成后,会在手机内部存储生成标准格式文件:

  • 文件命名规范CMB_20240601-20240630.xlsx(银行缩写+日期范围)
  • 内容结构:包含交易时间、金额、对手方、摘要、余额五列,符合会计记账要求
  • 自动同步:通过ADB pull命令将文件复制到本地电脑,再由Python脚本合并为Monthly_Finance_Report_202406.xlsx

安全设计亮点:所有账单文件默认保存在手机私有目录(/data/data/com.cmbchina.cmbportal/),AI代理仅通过ADB读取,不申请任何存储权限,符合金融数据最小权限原则。

5.3 效果对比:传统方式 vs AI代理

维度人工操作AutoGLM-Phone
单卡处理时间3-5分钟35-45秒
12张卡总耗时60+分钟<10分钟
操作错误率约8%(点错按钮、输错日期)<0.5%(异常时自动暂停)
可审计性无操作记录完整ADB日志+每步截图
扩展性每新增一家银行需重新学习同一模型泛化支持所有主流银行App

6. 常见问题与金融级稳定性保障

6.1 连接类问题:WiFi不稳定怎么办?

ADB WiFi连接本质是TCP长连接,易受路由器休眠影响。生产环境推荐双保险:

  • 主通道:WiFi连接(日常使用,省去线缆)
  • 备用通道:USB连接(夜间批量任务时启用,稳定性100%)

可在Python脚本中加入自动切换逻辑:

if not conn.is_connected(): print("WiFi连接断开,尝试USB重连...") conn.disconnect() conn.connect("1234567890ABCDEF") # USB设备ID

6.2 界面变更应对:银行App更新后还能用吗?

AutoGLM-Phone的VLM模型具备一定泛化能力。实测某股份制银行App升级后:

  • 图标位置偏移±15px → 自动校准,不影响操作
  • 文字按钮改为图标按钮 → 通过视觉相似性匹配,成功率92%
  • 全新页面结构(如增加人脸识别步骤) → 触发人工接管,等待用户标注

建议企业用户建立“界面变更监控”机制:当某App连续3次执行失败,自动截图并邮件告警,运维人员可快速标注新界面元素。

6.3 合规与安全边界:金融场景的硬性要求

AutoGLM-Phone在设计上严格遵循金融合规底线:

  • 零数据上传:手机屏幕截图仅在本地编码后发送至云端,云端不存储任何原始图像
  • 操作留痕:所有ADB命令、执行时间、截图哈希值写入本地SQLite数据库,满足审计要求
  • 权限最小化:仅申请android.permission.READ_PHONE_STATE(获取设备ID)和android.permission.INTERNET(联网),不申请通讯录、短信等敏感权限

7. 总结:当AI代理成为你的“数字财务助理”

AutoGLM-Phone的价值,从来不在技术参数有多炫酷,而在于它能否把“重复、枯燥、易错”的金融操作,变成一句自然语言就能解决的事。它不取代财务人员的专业判断,而是把人从机械劳动中解放出来——让你专注在“这笔支出是否合理”“这个收入是否应计税”这类真正需要智慧的问题上。

部署它不需要成为AI专家,按本文流程走完,一个懂基础电脑操作的财务人员,2小时内就能让AI开始帮你导出账单。而随着更多银行App被持续测试和优化,它的能力边界还在不断扩展:从账单导出,到自动填申报表;从查询余额,到比对多家理财收益;从下载回单,到生成可视化经营分析图——这才是AI在金融一线该有的样子:安静、可靠、不知疲倦,且永远在你需要的时候,刚刚好完成那一步。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/31 4:32:32

Paraformer模型优势解析:为何更适合中文长音频

Paraformer模型优势解析&#xff1a;为何更适合中文长音频 在中文语音识别领域&#xff0c;面对数小时会议录音、播客访谈或在线课程等长音频转写需求&#xff0c;传统ASR模型常面临断句不准、标点缺失、上下文割裂、显存溢出等现实瓶颈。Paraformer-large语音识别离线版&…

作者头像 李华
网站建设 2026/1/31 9:13:02

Qwen3-Embedding-4B省钱方案:弹性GPU部署案例分享

Qwen3-Embedding-4B省钱方案&#xff1a;弹性GPU部署案例分享 在实际业务中&#xff0c;向量检索服务常面临一个现实矛盾&#xff1a;高并发时需要充足算力保障低延迟&#xff0c;但日常流量又远低于峰值——如果长期租用高端显卡&#xff0c;成本会持续吃紧&#xff1b;若只配…

作者头像 李华
网站建设 2026/1/30 4:15:54

4步用免费工具制作专业简历:提升求职竞争力的实用指南

4步用免费工具制作专业简历&#xff1a;提升求职竞争力的实用指南 【免费下载链接】dnd-resume &#x1f680; Resume Builder 在线简历生成工具 项目地址: https://gitcode.com/gh_mirrors/dn/dnd-resume 在求职过程中&#xff0c;很多人都会遇到这样的困境&#xff1a…

作者头像 李华
网站建设 2026/2/1 0:57:42

Z-Image-Turbo vs SDXL对比实测,谁更适合中文创作

Z-Image-Turbo vs SDXL对比实测&#xff0c;谁更适合中文创作 在中文内容创作者的日常工作中&#xff0c;一个反复出现的困境是&#xff1a;明明用最直白的中文写了提示词&#xff0c;生成的图片却总“听不懂”——人物穿错衣服、文字渲染成乱码、园林场景里冒出西式喷泉、甚至…

作者头像 李华
网站建设 2026/1/29 10:24:20

手写体、模糊图也能精准识别?PaddleOCR-VL-WEB鲁棒性实测

手写体、模糊图也能精准识别&#xff1f;PaddleOCR-VL-WEB鲁棒性实测 在银行柜台扫描客户手写申请表、政务大厅接收泛黄历史档案、教育机构批量处理学生手写作业照片——这些场景每天都在真实发生。传统OCR工具一遇到字迹潦草、纸张褶皱、光照不均、低分辨率手机拍摄的图像&am…

作者头像 李华
网站建设 2026/1/26 13:36:47

如何解决第三方鼠标在macOS上的兼容性问题:Mac Mouse Fix全解析

如何解决第三方鼠标在macOS上的兼容性问题&#xff1a;Mac Mouse Fix全解析 【免费下载链接】mac-mouse-fix Mac Mouse Fix - A simple way to make your mouse better. 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix Mac Mouse Fix是一款专为解决ma…

作者头像 李华