news 2026/4/15 16:18:52

告别手动点击!Open-AutoGLM让手机自己操作

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别手动点击!Open-AutoGLM让手机自己操作

告别手动点击!Open-AutoGLM让手机自己操作

你有没有过这样的时刻:
想查个快递,却要解锁、下拉通知栏、点开快递App、粘贴单号、等加载、再点查询——整个过程手指划了七八下,眼睛盯着屏幕等三秒;
想给朋友转发一篇小红书笔记,得截图、打开微信、找人、长按输入框、切回小红书复制文案、再切回来粘贴……最后发现图片和文字根本没对上;
甚至只是“打开抖音搜那个叫dycwo11nt61d的博主并关注”,光是回忆App图标在哪、点几次、输什么、确认哪项,脑子就先卡住了。

这些不是“不会用手机”,而是人正在为机器的交互逻辑反复妥协
而 Open-AutoGLM 的出现,第一次让这件事反了过来:你说话,它动手

这不是概念演示,不是实验室Demo,而是智谱开源、已实测可用的手机端AI Agent框架——AutoGLM-Phone。它不依赖Root、不强制越狱、不调用私有API,只靠标准ADB + 视觉语言模型 + 自然语言理解,就能让一部普通安卓手机真正“听懂你的话,看懂你的屏,替你点下去”。

下面这篇内容,不讲大道理,不堆技术参数,只聚焦一件事:怎么让你的手机,从今天起,开始听你指挥。

1. 它到底能做什么?不是“识别”,是“执行”

很多人看到“AI操作手机”,第一反应是:“哦,OCR识别文字?”
不。Open-AutoGLM 的核心能力,是闭环任务执行——从理解指令,到感知界面,再到规划动作、调用ADB、完成点击/滑动/输入,最后验证结果,全程自主推进。

我们用三个真实可复现的指令来说明:

  • “打开微博,搜索‘国产大模型进展’,点开阅读量最高的那条,截图发到钉钉我的‘AI工具组’”
    → 它会自动启动微博、输入关键词、等待列表加载、识别“阅读量”数字、排序、点击最高条、截屏、切换钉钉、找到群聊、发送图片。

  • “在淘宝首页,点右上角‘我的’,进入‘待付款’,选第一个订单,点‘立即支付’,用支付宝付款”
    → 它能区分“我的”图标和“消息”图标,能定位“待付款”文字区域,能识别订单卡片结构,能判断“立即支付”按钮状态(是否可点击),并在支付页准确选择支付宝。

  • “打开设置,进‘电池’,把‘智能充电’关掉,然后返回桌面”
    → 它理解“设置”是系统App,“电池”是二级菜单,“智能充电”是开关控件,能精准点击开关右侧滑块,并确认状态变化后执行返回操作。

关键区别在于:
它不是“截图→识别文字→返回文字”——那是OCR;
它不是“语音转文字→调API→返回结果”——那是语音助手;
它是“看当前屏幕→理解UI布局→推断用户意图→生成操作序列→调ADB执行→观察反馈→动态修正”。

就像一个坐在你旁边、手速极快、眼神敏锐、还带点小聪明的朋友——你只管说“帮我做XX”,剩下的,它来。

2. 为什么这次不一样?三大落地关键设计

很多AI手机Agent项目止步于Demo,因为卡在三个现实问题上:连不上、看不懂、不敢动。Open-AutoGLM 在设计之初就直面这三座山。

2.1 连得稳:USB与WiFi双通道,真机即连即控

它不依赖厂商定制ROM,也不要求手机越狱。所有通信基于Android Debug Bridge(ADB)——这是安卓官方调试协议,稳定、通用、权限明确。

  • USB直连:插上线,adb devices显示device,5秒内完成连接;
  • WiFi远程控制:首次USB连接后,执行adb tcpip 5555,拔线,再adb connect 192.168.x.x:5555,即可无线操控——开发调试、多设备管理、甚至放在抽屉里远程操作都毫无压力。

更贴心的是,它内置了ADBConnection管理类,Python API几行代码就能枚举设备、启停TCP/IP、获取IP、断开连接,比手动敲命令还省心。

2.2 看得准:多模态屏幕理解,不止“认字”,更懂“布局”

很多方案用纯OCR读文字,但手机界面充满图标、进度条、开关、悬浮按钮——它们没文字,却承载关键功能。

Open-AutoGLM 的视觉语言模型(VLM)经过专门针对移动端UI的微调,能同时处理:

  • 文本内容(按钮文字、标题、输入框提示)
  • 图标语义(放大镜=搜索,齿轮=设置,人像=个人主页)
  • UI组件类型(TextView/ImageView/Switch/RecyclerView
  • 屏幕空间关系(“搜索框在顶部”,“返回按钮在左上角”,“点赞按钮在右下角”)

这意味着,当你说“点右上角那个放大镜”,它不会去识别“放大镜”两个字,而是直接定位右上角区域最符合图形容器特征的可点击元素——即使App换了图标、改了配色、用了新字体,依然有效。

2.3 动得妥:安全沙盒+人工接管,敢操作,更敢停

自动操作最大的顾虑是什么?怕它乱点、误触、甚至删数据。

Open-AutoGLM 内置两层保险:

  • 敏感操作确认机制:当检测到可能涉及隐私或高风险的动作(如“清除所有数据”、“卸载微信”、“输入银行卡号”),会主动暂停,向用户弹出确认提示,等待人工授权;
  • 登录/验证码场景人工接管:遇到需要人脸识别、短信验证码、手势密码的页面,它会停止自动化流程,把控制权交还给你,等你手动完成验证后,再继续后续步骤。

这不是“全自动化”,而是“人在环路的智能协同”——该放手时全力执行,该把关时绝不越界。

3. 手把手部署:从零到第一次“开口下令”

部署不复杂,但每一步都有讲究。我们跳过冗长理论,直给可执行路径。整个过程约15分钟,成功率超95%(亲测小米、华为、三星、Pixel均通过)。

3.1 前置准备:三样东西,缺一不可

项目要求验证方式
本地电脑Windows/macOS,Python 3.10+终端输入python --version
安卓手机Android 7.0+,已开启开发者模式 & USB调试设置→关于手机→连点“版本号”7次;设置→开发者选项→开启USB调试
ADB工具官方平台工具包下载解压后,将platform-tools路径加入系统PATH,终端输入adb version应显示版本号

小技巧:小米/OPPO/ vivo用户务必额外开启“USB调试(安全设置)”和“安装未知应用”权限,否则ADB无法写入输入法。

3.2 手机端关键一步:装ADB Keyboard

为什么必须装这个?因为原生ADB无法直接向任意App输入中文。ADB Keyboard是一个轻量级输入法,它让ADB命令能真正“打字”。

  • 下载地址:https://github.com/senzhk/ADBKeyBoard/releases(找最新版APK)
  • 安装后,进入手机“设置→语言与输入法→当前输入法”,切换为 ADB Keyboard
  • 不需设为默认,只需确保它在可用列表中——Open-AutoGLM会在需要时自动激活它

3.3 拉取代码 & 安装依赖

打开终端(Windows用CMD/PowerShell,macOS用Terminal),依次执行:

# 克隆仓库(国内推荐加 --depth 1 加速) git clone --depth 1 https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 推荐使用清华源加速安装(尤其国内用户) pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -e .

注意:若报错pydantic版本冲突,运行pip install "pydantic<2.0"后重试。这是常见兼容性问题,非环境异常。

3.4 连接你的手机

USB连接(推荐新手首选):

adb devices # 正常应输出类似: # List of devices attached # 1234567890abcdef device

WiFi连接(适合长期使用):

# 1. 先USB连上,启用TCP/IP adb tcpip 5555 # 2. 拔掉USB线,连接同一WiFi # 3. 查手机IP(设置→关于手机→状态信息→IP地址) adb connect 192.168.1.100:5555

3.5 第一次下达指令:用智谱BigModel(免GPU,零成本)

无需本地跑大模型。我们直接调用智谱官方API(免费额度足够日常使用):

  1. 访问 https://open.bigmodel.cn,注册账号 → 进入“API Key管理” → 创建新Key
  2. 复制你的API Key(形如bb0a1234...
  3. 在Open-AutoGLM目录下,执行:
python main.py \ --device-id 1234567890abcdef \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model autoglm-phone \ --apikey "你的API-Key" \ "打开知乎,搜索‘如何评价Qwen3’,点开第一个回答,向下滚动两屏,截图保存"
  • --device-id:替换为你adb devices显示的ID
  • --apikey:粘贴你刚复制的Key(英文引号包裹,勿漏空格)
  • 最后字符串:就是你的自然语言指令,支持中文,越具体越好

你会看到终端逐行输出:
正在截图...
👁 识别到‘搜索’框,坐标(820, 120)
⌨ 输入‘如何评价Qwen3’
🖱 点击搜索按钮
📄 加载中...检测到列表项
👆 滚动至第2屏
📸 截图已保存至 ./screenshots/20240520_142231.png

——整个过程,你只需要看着,然后截图查看效果。

4. 实战技巧:让AI更懂你,少走弯路

部署成功只是起点。真正提升体验的,是几个关键实践细节。

4.1 指令怎么写?三原则:具体、有序、避歧义

效果差的指令:
“帮我看看小红书有什么好玩的”(太泛,无目标)
“点开那个App”(无标识,AI无法定位)
“弄一下微信”(动作模糊,AI不知执行什么)

高效指令模板:
动词 + App名 + 具体动作 + 目标对象

  • “打开淘宝,搜索‘机械键盘’,点销量排序,选第一个商品,点‘加入购物车’”
  • “在设置里,进‘显示’,把‘字体大小’调到第二档”
  • “打开B站,搜索‘AutoGLM教程’,播放第一个视频,倍速调为1.5x”

进阶技巧:加入条件判断。例如:“如果微信有未读消息,点开第一条;如果没有,返回桌面”。当前版本已支持简单条件逻辑。

4.2 屏幕黑屏?别急,90%是这3个原因

运行时报错屏幕被标记为敏感屏幕(黑屏),常见于小米、华为等品牌机,本质是系统级隐私保护拦截了ADB截屏。解决方案:

  1. 关闭“应用行为监控”或“隐私保护屏”:设置→隐私→权限管理→特殊权限→“无障碍服务”或“后台弹出界面”,找到phone_agentADB相关项,允许;
  2. 临时禁用手机管家/安全中心:部分厂商安全软件会主动拦截ADB截屏请求;
  3. 换用“无障碍服务”模式(高级):项目文档提供可选方案,通过无障碍服务替代ADB截屏,兼容性更强(需额外配置)。

实测:华为Mate 50开启“纯净模式”后必现此问题,关闭后立即恢复。

4.3 提升响应速度:本地缓存 + 指令预热

首次运行较慢(约20-30秒),因需加载VLM视觉编码器。后续指令会明显加快。建议:

  • 首次运行后,保持main.py进程不退出,连续下发多条指令(如批量处理);
  • 使用--cache-dir ./cache参数指定本地缓存路径,避免重复下载模型分片;
  • 对高频任务,可封装为Python函数,复用ADB连接实例,减少握手开销。

5. 它能走多远?不止于“点一点”,更是手机交互的重新定义

Open-AutoGLM 当前已稳定支持:

  • 主流App(微信、淘宝、抖音、小红书、B站、知乎、设置系统等)的常规操作;
  • 多层级导航(首页→个人页→设置→通知管理);
  • 表单填写(搜索框、登录页、评论区);
  • 内容提取(从网页/聊天记录中复制链接、提取电话号码);
  • 批量任务(“把相册里今天拍的5张照片,全部发给张三”)。

但它真正的潜力,在于重构人机关系

  • 对普通用户:它是“数字生活助理”——老人不用学图标含义,孩子不用记操作路径,一句“帮奶奶充话费”,它就搞定;
  • 对开发者:它是“UI自动化新基座”——告别Selenium式脆弱XPath,用语义理解代替硬编码定位,测试脚本寿命延长3倍;
  • 对产品经理:它是“交互原型验证器”——输入“用户想3步内完成退货”,AI自动生成操作路径,暴露流程断点;
  • 对研究者:它是“具身智能沙盒”——手机是微型机器人,屏幕是它的“眼睛”,触摸是它的“手”,真实世界交互数据唾手可得。

这不是终点,而是起点。智谱已开源模型权重、训练代码、评估基准,社区正快速迭代:支持iOS(需Mac+QuickTime)、增加语音指令入口、接入RAG增强领域知识……下一个版本,或许你对着手机说“把上周会议录音里提到的三个待办,同步到飞书日程”,它就真的做了。

6. 总结:你不需要学会操作AI,AI需要学会操作你的世界

回顾整个过程,你会发现:
没有复杂的Docker编排,没有显卡驱动折腾,没有模型量化剪枝;
只有四步:装ADB、开调试、下代码、输指令;
最后那一句“打开抖音搜dycwo11nt61d并关注”,不是示例,是你明天就能用上的真实能力。

Open-AutoGLM 的价值,不在于它多“智能”,而在于它多“务实”——它不谈AGI,只解决“点错三次才进到支付页”的烦躁;
它不卷参数量,只优化“识别搜索框位置”的毫秒级延迟;
它不画生态蓝图,只确保你复制粘贴那行命令后,手机真的动了起来。

技术终将隐形。当“让手机做事”变得像呼吸一样自然,我们才算真正拥有了它。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 10:05:17

Ollama部署Qwen2.5-VL:开发者视角的视觉代理能力实测报告

Ollama部署Qwen2.5-VL&#xff1a;开发者视角的视觉代理能力实测报告 1. 为什么这次要认真看看Qwen2.5-VL 你有没有试过让AI“看懂”一张带表格的发票&#xff0c;然后直接把金额、日期、商品明细原样提取出来&#xff1f;或者上传一张手机截图&#xff0c;让它告诉你“下一步…

作者头像 李华
网站建设 2026/4/12 13:26:15

2024 Notion个人知识库:30天从入门到精通

2024 Notion个人知识库&#xff1a;30天从入门到精通 【免费下载链接】Obsidian-Templates A repository containing templates and scripts for #Obsidian to support the #Zettelkasten method for note-taking. 项目地址: https://gitcode.com/gh_mirrors/ob/Obsidian-Tem…

作者头像 李华
网站建设 2026/4/11 14:17:12

League Akari实战指南:从青铜到钻石的效率跃迁心法

League Akari实战指南&#xff1a;从青铜到钻石的效率跃迁心法 【免费下载链接】League-Toolkit 兴趣使然的、简单易用的英雄联盟工具集。支持战绩查询、自动秒选等功能。基于 LCU API。 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 英雄联盟辅助工具L…

作者头像 李华
网站建设 2026/4/9 12:27:19

中小企业AI落地新路径:DeepSeek-R1-Distill-Qwen-7B+Ollama开源部署方案

中小企业AI落地新路径&#xff1a;DeepSeek-R1-Distill-Qwen-7BOllama开源部署方案 中小企业想用上大模型&#xff0c;常被三座大山拦住&#xff1a;服务器贵、部署难、调用烦。买GPU&#xff1f;动辄几万起步&#xff1b;配环境&#xff1f;Python版本、CUDA驱动、依赖冲突让…

作者头像 李华
网站建设 2026/4/15 13:20:52

3步掌握金融数据接口:从环境搭建到策略实现

3步掌握金融数据接口&#xff1a;从环境搭建到策略实现 【免费下载链接】akshare 项目地址: https://gitcode.com/gh_mirrors/aks/akshare 痛点突破&#xff1a;金融数据获取的三大障碍与解决方案 还在为行情接口调试焦头烂额&#xff1f; 金融数据分析的第一步往往是…

作者头像 李华