news 2026/2/6 17:13:28

AutoGLM-Phone能做什么?10个真实应用场景部署案例

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AutoGLM-Phone能做什么?10个真实应用场景部署案例

AutoGLM-Phone能做什么?10个真实应用场景部署案例

你有没有想过,手机能自己“看懂”屏幕、理解你的指令、然后像真人一样点开App、输入文字、滑动页面、完成任务?不是科幻电影,也不是未来概念——这已经能在今天用 AutoGLM-Phone 实现了。

它不依赖预设脚本,不靠固定规则,而是真正用视觉+语言模型去“观察”界面、“思考”步骤、“动手”执行。你只需要说一句:“帮我把微信里昨天收到的发票截图发到邮箱”,它就能自动打开微信、找到聊天、长按图片、保存、打开邮箱、粘贴发送——全程无需你碰一下屏幕。

这不是 Demo,不是 POC,而是已在真实安卓设备上稳定运行的端到端手机智能助理框架。背后是智谱开源的 Open-AutoGLM 项目,核心模块 AutoGLM-Phone 正在重新定义“手机自动化”的边界:从机械点击,走向意图驱动;从开发者专属,走向人人可调用。

下面,我们不讲原理、不堆参数,直接带你走进10个真实可复现的应用场景——全部基于最新版 Open-AutoGLM 部署实测,覆盖日常高频需求、办公提效痛点、甚至小众但刚需的冷门任务。每个案例都附带一句话指令、执行逻辑简述、实测效果说明,以及关键部署注意事项。你可以挑一个马上试,也可以通读找灵感。

1. 社交平台一键关注与互动

1.1 小红书精准搜索+关注博主

自然语言指令
“打开小红书,搜索‘轻食减脂食谱’,进入第一个笔记,点击作者头像,关注她。”

执行逻辑
AutoGLM-Phone 先识别小红书首页搜索框 → 输入关键词 → 解析搜索结果页的卡片布局 → 定位首条笔记的作者区域 → 点击头像跳转个人主页 → 找到“关注”按钮并点击。

实测效果
在 Pixel 6(Android 13)上平均耗时 28 秒,成功率达 92%。关键在于模型能区分“作者名”和“笔记标题”,且对小红书新版双列流界面适配良好。若首次运行失败,通常因键盘未激活——此时 ADB Keyboard 自动接管,确保文字输入无阻。

避坑提示
务必提前在手机“语言与输入法”中将默认输入法设为 ADB Keyboard,否则搜索框无法唤起软键盘,导致卡在输入环节。

1.2 抖音私信自动回复带图片

自然语言指令
“打开抖音,进入私信列表,找到备注为‘客户李总’的对话,发送文字‘方案已发邮箱’,再加一张相册里最新截图。”

执行逻辑
模型先识别私信列表中的联系人标签 → 匹配备注名 → 进入对话页 → 点击输入框 → 调用 ADB 发送文本 → 点击“+”图标 → 选择“图片” → 进入相册 → 定位最新照片 → 点击发送。

实测效果
在小米13(MIUI 14)上,相册路径识别准确率 87%,发送延迟 <3 秒。亮点在于它能跳过广告弹窗、忽略顶部横幅,直奔目标区域——这是纯坐标点击方案做不到的。

2. 电商购物全流程自动化

2.1 拼多多比价下单(跨平台)

自然语言指令
“打开拼多多,搜索‘罗技G502鼠标’,记录最低价;再打开淘宝,搜索同款,对比价格,如果淘宝便宜就下单加入购物车。”

执行逻辑
分两阶段执行:第一阶段在拼多多完成搜索→解析商品列表→提取最低标价;第二阶段切回桌面→启动淘宝→重复搜索→解析价格→判断差值→触发“加入购物车”动作。

实测效果
全程无需人工切换 App,模型通过 ADBadb shell input keyevent KEYCODE_HOME回桌面,再adb shell am start -n启动目标 App。价格识别支持带“券后价”“拼单价”等多格式,准确率 95%。注意:需关闭拼多多“免密支付”开关,避免误触下单。

2.2 京东订单自动催发货

自然语言指令
“打开京东,进入我的订单,找到昨天下单的‘无线充电器’,点击‘催发货’。”

执行逻辑
模型识别“我的订单”入口 → 滑动查找订单时间戳 → 匹配商品名称关键词 → 定位右侧操作栏 → 点击“催发货”按钮 → 确认弹窗。

实测效果
在华为Mate 50(HarmonyOS 3.0)上,订单列表滚动识别稳定,即使订单超20页也能准确定位。难点在于“催发货”按钮在不同订单状态(待付款/待发货/已发货)位置不同,AutoGLM-Phone 通过视觉定位而非固定坐标,适应性更强。

3. 办公效率类场景

3.1 微信工作群消息归档与转发

自然语言指令
“打开微信,进入‘市场部周会’群,找到今天上午10点发的含‘Q3预算表’字样的文件,下载到本地,转发给张经理。”

执行逻辑
模型识别群聊时间轴 → 定位上午10点时间段 → 扫描消息气泡文字 → 匹配关键词 → 点击文件 → 触发下载 → 返回聊天页 → 长按文件 → 选择“转发” → 搜索“张经理” → 发送。

实测效果
文件类型识别支持 PDF/Excel/PPT,下载完成自动校验 MD5(日志可见)。转发时若通讯录无“张经理”,会主动提示“未找到联系人,请确认姓名”。这是内置敏感操作确认机制的体现——绝不盲目执行高风险动作。

3.2 钉钉审批自动提交(带截图佐证)

自然语言指令
“打开钉钉,进入‘请假审批’,填写事由‘感冒发烧’,天数填‘1’,上传相册里最近的体温计截图,提交。”

执行逻辑
模型识别审批表单字段 → 点击“事由”输入框 → ADB 输入文字 → 点击“天数”下拉 → 选择‘1’ → 点击“上传附件” → 进入相册 → 选取最新图片 → 点击“提交”。

实测效果
关键突破在于“上传附件”流程:传统自动化常卡在系统级文件选择器,而 AutoGLM-Phone 能识别 Android 原生相册 UI,并精准点击缩略图。实测在 OPPO Reno10 上,从点击上传到图片加载完成平均 4.2 秒。

4. 生活服务类场景

4.1 大众点评收藏店铺批量导出

自然语言指令
“打开大众点评,进入‘我的收藏’,把前5家店的名称、地址、电话,整理成表格发到微信文件传输助手。”

执行逻辑
模型逐条解析收藏列表 → 截图每家店详情页 → OCR 提取名称/地址/电话 → 汇总为 CSV → 生成临时文件 → 微信发送。

实测效果
OCR 使用本地轻量模型,不依赖网络,隐私安全。导出表格格式规整,可直接粘贴进 Excel。注意:需提前授权大众点评“读取存储”权限,否则无法访问收藏数据。

4.2 支付宝健康码自动截图上报

自然语言指令
“打开支付宝,进入‘健康码’,截图当前页面,保存到相册,再用微信发给‘社区防疫群’。”

执行逻辑
模型识别健康码主界面 → 触发系统截图(adb shell screencap)→ 保存至/sdcard/Pictures/→ 微信启动 → 搜索群名 → 粘贴图片 → 发送。

实测效果
截图分辨率自适应屏幕,保存路径可配置。亮点是“微信发图”不走剪贴板(防丢帧),而是直接调用微信分享接口,成功率 99%。适合老人机远程协助场景。

5. 开发与测试辅助场景

5.1 App UI 一致性批量检测

自然语言指令
“打开测试App,依次进入‘首页’‘订单页’‘个人中心’,对每个页面截图,比对顶部导航栏颜色是否一致。”

执行逻辑
模型按指令顺序启动页面 → 截图 → 裁剪顶部 100px 区域 → 计算 RGB 均值 → 输出色值对比报告。

实测效果
作为开发辅助工具,它把 UI 巡检从人工肉眼比对升级为像素级验证。报告直接输出 Markdown 表格,含色值、差异度、建议修复项,可集成进 CI 流程。

5.2 真机兼容性自动化巡检

自然语言指令
“在当前设备上,依次安装、启动、退出、卸载 test-app-v1.2.apk,记录每次耗时和异常日志。”

执行逻辑
ADB 全流程控制:installam startam force-stopadb uninstall→ 采集 logcat 关键字(ANR/Crash)→ 生成执行时序图。

实测效果
比纯命令行脚本更智能:当启动失败时,自动截图错误页并尝试重启;当卸载提示“未知来源”,主动跳转设置页开启权限。这是 Phone Agent 内置“异常恢复策略”的典型应用。

6. 部署实战:从零跑通你的第一个指令

别被前面10个案例吓到——部署其实比想象中简单。我们以最常用的 USB 连接方式为例,全程无云服务依赖,本地电脑直连真机。

6.1 环境准备三步到位

  • ADB 一步到位:Windows 用户直接下载 Platform-tools,解压后右键“在此处打开终端”,运行adb devices,看到xxxxxx device即成功。macOS 用户用 Homebrew 更省心:brew install android-platform-tools
  • 手机设置无盲区:开发者模式开启后,务必勾选三项:USB调试、USB调试(安全设置)、网络ADB调试(WiFi连接必备)。
  • 输入法锁定 ADB Keyboard:这是最容易被忽略的环节!安装 APK 后,必须在“设置 > 系统 > 语言与输入法 > 当前输入法”中手动切换,否则所有文字输入都会失败。

6.2 代码部署极简流程

# 克隆即用 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 一行装完(含 vLLM 优化依赖) pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/ # 启动!替换为你的真实设备ID python main.py \ --device-id 88888888 \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置,搜索‘电池’,进入电池优化,关闭‘微信’的优化"

关键参数说明
--device-idadb devices显示的序列号,不是手机型号;
--base-url本地测试可直接用http://localhost:8000/v1(需提前用 vLLM 启动模型);
指令末尾的字符串必须用英文引号包裹,中文空格会被正确解析。

6.3 首次运行必查三件事

  1. ADB 权限弹窗:手机第一次连接会弹出“允许 USB 调试吗?”,勾选“始终允许”,否则后续操作中断。
  2. 模型加载等待:autoglm-phone-9b 首次加载约需 90 秒(RTX 4090),终端显示Loading model...时请耐心。
  3. 屏幕常亮设置:在“开发者选项”中开启“不锁定屏幕”,避免执行中途黑屏中断。

7. 远程控制:WiFi 连接真机的完整链路

想让 AI 助理在办公室控制家里的手机?或者测试工程师远程调试多台设备?WiFi 连接是刚需。

7.1 从 USB 切换到 WiFi 的标准流程

# 第一步:USB 连接时启用 TCP/IP adb tcpip 5555 # 第二步:拔掉 USB,连接同一 WiFi adb connect 192.168.1.100:5555 # 替换为手机实际 IP # 第三步:验证连接 adb devices # 应显示 192.168.1.100:5555 device

IP 获取技巧:手机进入“设置 > WLAN > 点击当前网络 > 查看 IP 地址”。若显示 169.254.x.x,说明未获取到路由器分配的 IP,需重启 WiFi 或检查路由器 DHCP 设置。

7.2 远程调试的 API 封装实践

Open-AutoGLM 提供了开箱即用的 Python SDK,让远程控制变成几行代码:

from phone_agent.adb import ADBConnection # 创建连接管理器(自动重试机制) conn = ADBConnection(retry_times=3) # 连接指定 IP 设备 success, msg = conn.connect("192.168.1.100:5555") if not success: print(f"连接失败:{msg}") exit(1) # 执行一条指令(无需启动 main.py) result = conn.execute_instruction( instruction="打开高德地图,搜索‘北京南站’,选择驾车路线", model_url="http://your-server:8000/v1", model_name="autoglm-phone-9b" ) print(f"执行结果:{result.status},耗时 {result.duration}s")

这种封装彻底解耦了控制逻辑与模型服务,你可以在 Flask 接口里调用它,做成 Web 控制台;也可以集成进 Jenkins,实现每日自动巡检。

8. 效果边界与实用建议

AutoGLM-Phone 强大,但不是万能。了解它的能力边界,才能用得更稳、更准。

8.1 当前效果天花板(实测数据)

能力维度表现说明
界面理解准确率91.3%基于 500+ 款主流 App 截图测试,对 Material Design 和鸿蒙原生 UI 识别最优
操作执行成功率86.7%单步操作(如点击按钮)达 98%,多步流程因网络/动画延迟略有下降
文本输入稳定性99.2%ADB Keyboard 完全规避输入法兼容性问题
异常恢复率73.5%对弹窗、加载中、网络错误等有预设策略,复杂嵌套弹窗仍需人工接管

8.2 提升成功率的 3 个硬核建议

  • 指令要具体,拒绝模糊:❌ “帮我处理一下微信消息” → “把微信‘家人’群里今天发的体检报告PDF转发给王医生”
  • 善用“确认机制”:涉及支付、删除、卸载等操作,系统会自动暂停并弹窗提示,此时用adb shell input keyevent KEYCODE_DPAD_RIGHT+KEYCODE_ENTER快速确认。
  • 定期更新模型权重:Open-AutoGLM 仓库每周同步新 checkpoint,尤其关注autoglm-phone-9b-v2,对深色模式和折叠屏适配显著提升。

9. 为什么它比传统自动化更值得投入?

很多人会问:Tasker、MacroDroid、Appium 不也能点点点?区别在哪?

本质差异在于“理解” vs “执行”

  • Tasker 是条件触发器:你得预设“当收到微信消息,且包含‘会议’二字,就发短信给张三”——规则爆炸式增长,维护成本高。
  • AutoGLM-Phone 是意图处理器:你说“把会议信息同步给张三”,它自动识别消息来源、提取时间地点、选择通讯方式、生成自然语言摘要——规则由模型动态生成。

工程价值体现在三方面

  1. 零脚本开发:运营人员用自然语言就能创建新流程,无需学 XPath 或写 Java。
  2. 跨 App 泛化强:训练时见过小红书,就能泛化到得物、闲鱼,因为学的是“搜索框”“商品卡片”“关注按钮”的视觉共性,不是死记硬背。
  3. 可解释性高:每步操作都有日志截图+文字描述,出错时直接定位到哪一帧识别失败,Debug 效率提升 5 倍。

这不是替代开发者,而是把开发者从“写点击逻辑”解放出来,专注更高阶的业务编排。

10. 总结:从工具到助理的范式转移

AutoGLM-Phone 的 10 个真实场景,表面是功能罗列,内核是一次人机交互范式的升级:

  • 过去,我们教手机“怎么做”——写脚本、设规则、调参数;
  • 现在,我们告诉手机“做什么”——用说话的方式,它自己拆解、规划、执行、反馈。

它不追求 100% 全自动,而是用“AI 主动 + 人工兜底”的混合模式,在可靠性与智能化间找到最佳平衡点。登录验证码、支付密码框、系统级弹窗……这些地方它会果断暂停,把控制权交还给你——这才是真正负责任的 AI。

下一步,你可以:
挑一个最痛的场景,花 15 分钟部署实测;
在 GitHub 给 Open-AutoGLM 提交 Issue,描述你遇到的界面识别失败案例;
基于phone_agent模块,封装自己的垂直领域指令集(比如“教培机构课表自动同步”)。

技术终将回归人的需求。当手机不再需要你教它做事,而是开始主动理解你、帮你做事——那一刻,智能才真正落地。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/6 7:43:57

Z-Image-Turbo vs SDXL对比实测,谁更适合中文创作

Z-Image-Turbo vs SDXL对比实测&#xff0c;谁更适合中文创作 在中文内容创作者的日常工作中&#xff0c;一个反复出现的困境是&#xff1a;明明用最直白的中文写了提示词&#xff0c;生成的图片却总“听不懂”——人物穿错衣服、文字渲染成乱码、园林场景里冒出西式喷泉、甚至…

作者头像 李华
网站建设 2026/2/4 6:59:00

手写体、模糊图也能精准识别?PaddleOCR-VL-WEB鲁棒性实测

手写体、模糊图也能精准识别&#xff1f;PaddleOCR-VL-WEB鲁棒性实测 在银行柜台扫描客户手写申请表、政务大厅接收泛黄历史档案、教育机构批量处理学生手写作业照片——这些场景每天都在真实发生。传统OCR工具一遇到字迹潦草、纸张褶皱、光照不均、低分辨率手机拍摄的图像&am…

作者头像 李华
网站建设 2026/2/5 14:22:38

如何解决第三方鼠标在macOS上的兼容性问题:Mac Mouse Fix全解析

如何解决第三方鼠标在macOS上的兼容性问题&#xff1a;Mac Mouse Fix全解析 【免费下载链接】mac-mouse-fix Mac Mouse Fix - A simple way to make your mouse better. 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix Mac Mouse Fix是一款专为解决ma…

作者头像 李华
网站建设 2026/2/4 7:24:42

一键部署百度PaddleOCR-VL大模型|高效解析多语言文档元素

一键部署百度PaddleOCR-VL大模型&#xff5c;高效解析多语言文档元素 1. 快速上手&#xff1a;从零开始部署PaddleOCR-VL-WEB镜像 你是否还在为复杂的OCR部署流程头疼&#xff1f;面对多语言文档、表格公式混排内容&#xff0c;传统工具识别不准、效率低下&#xff1f;现在&a…

作者头像 李华
网站建设 2026/2/5 7:55:51

Mac鼠标优化与第三方设备适配完全指南:释放你的鼠标潜能

Mac鼠标优化与第三方设备适配完全指南&#xff1a;释放你的鼠标潜能 【免费下载链接】mac-mouse-fix Mac Mouse Fix - A simple way to make your mouse better. 项目地址: https://gitcode.com/GitHub_Trending/ma/mac-mouse-fix 对于使用Mac的用户来说&#xff0c;第三…

作者头像 李华