手机AI代理初体验:Open-AutoGLM操作全流程演示
1. 为什么需要一个“会看屏幕、能点手机”的AI?
你有没有过这样的时刻:
想查个快递,但懒得解锁手机、打开App、输入单号;
想订一杯咖啡,却要反复切换微信、美团、小程序;
甚至只是想“把相册里所有去年夏天的海边照片发给张三”,都要手动翻找、勾选、发送……
现在的语音助手,大多只能调用系统级功能——打电话、设闹钟、查天气。一旦涉及第三方App,它们就哑火了。不是不想做,是真看不懂界面。
Open-AutoGLM 改变了这一点。它不靠预设脚本,也不依赖App内部API,而是像真人一样:
用眼睛看——实时截图分析当前屏幕UI元素(按钮、输入框、列表项);
用脑子想——理解你的自然语言指令,拆解成可执行动作序列;
用手操作——通过ADB精准点击、滑动、输入,全程无需你碰手机。
这不是自动化工具,而是一个真正具备“视觉-语言-动作”闭环能力的手机AI代理。
本文不讲原理、不堆参数,只带你从零开始,在一台普通Windows电脑 + 一部安卓手机上,完整跑通整个流程——从环境配置到成功执行“打开小红书搜美食”,再到生成一份南京旅游攻略。每一步都可验证,每一行命令都经过实测。
2. 硬件与基础环境准备:三样东西,三十分钟搞定
别被“AI代理”吓住——它对本地硬件几乎零要求。你不需要显卡,不需要服务器,甚至不需要Linux。只要满足以下三个条件,就能启动:
2.1 必备清单
- 一台安卓手机(Android 7.0+,实测vivo S20、小米13、华为Mate 40均可)
- 一台Windows/macOS电脑(Python 3.10+,推荐用conda新建虚拟环境隔离依赖)
- 一根稳定USB数据线(WiFi连接虽支持,但首次调试强烈建议USB直连)
小提醒:部分新机型(如华为鸿蒙4+、小米澎湃OS)默认禁用ADB调试权限,需在开发者选项中额外开启“USB调试(安全设置)”或“仅充电模式下允许ADB调试”。
2.2 ADB工具安装:两分钟配好,终身受益
ADB(Android Debug Bridge)是控制安卓设备的通用桥梁。配置它,就是让电脑“认出”你的手机。
Windows用户:
- 去Android官方平台工具页下载zip包;
- 解压到路径如
C:\platform-tools(避免中文和空格); - 按
Win+R→ 输入sysdm.cpl→ “高级” → “环境变量” → 在“系统变量”中找到Path→ “编辑” → “新建” → 粘贴刚才的解压路径; - 重启命令行,输入
adb version,看到版本号即成功。
macOS用户:
在终端执行:
# 假设解压到 ~/Downloads/platform-tools export PATH="$PATH:~/Downloads/platform-tools" # 加入 ~/.zshrc 使其永久生效 echo 'export PATH="$PATH:~/Downloads/platform-tools"' >> ~/.zshrc source ~/.zshrc2.3 手机端关键设置:三步打开“控制权”
这三步缺一不可,且顺序不能乱:
- 开启开发者模式:
设置 → 关于手机 → 连续点击“版本号”7次,直到弹出“您现在处于开发者模式”提示; - 启用USB调试:
设置 → 系统与更新 → 开发者选项 → 打开“USB调试”; - 安装ADB Keyboard(解决输入问题):
下载 ADBKeyboard.apk;
命令行执行:
安装成功后,进入手机“设置 → 语言与输入法 → 当前输入法”,选择ADB Keyboard并设为默认。adb install -r ~/Downloads/ADBKeyboard.apk
验证是否成功?
用USB线连接手机与电脑,命令行运行:
adb devices若输出类似ZY2252NQFJ device(一串字符+device),说明设备已识别。若显示unauthorized,请在手机弹窗中点击“允许”。
3. 控制端部署:克隆、安装、测试,三步到位
Open-AutoGLM 的控制逻辑全部运行在你的本地电脑上,它只负责截图、发送请求、执行ADB指令。真正的“大脑”——视觉语言模型——由云端API提供(智谱BigModel),因此你无需GPU,也无需下载9B大模型。
3.1 克隆项目并安装依赖
在终端中执行:
git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM pip install -r requirements.txt pip install -e .注意:
requirements.txt中包含opencv-python-headless(无GUI版OpenCV),避免在无桌面环境报错;若后续需查看截图调试,可单独安装opencv-python。
3.2 获取智谱API Key:免费额度够实测
访问 智谱BigModel官网,注册账号 → 进入“API密钥”页面 → 创建新密钥 → 复制保存(形如sk-xxx)。
新用户赠送充足免费Token,一次“搜美食+生成攻略”消耗约2000 Token,完全够用。
3.3 首次验证:用脚本确认链路畅通
项目自带验证脚本scripts/check_deployment_cn.py,但Windows用户需注意一个编码坑:
脚本默认用系统编码读取JSON文件,在中文Windows下会报UnicodeDecodeError: 'gbk' codec can't decode byte...。
修复方法(只需改一行):
打开scripts/check_deployment_cn.py,找到第32行左右的with open(args.messages_file) as f:,改为:
with open(args.messages_file, encoding='utf-8') as f: messages = json.load(f)然后运行验证命令(替换为你的真实API Key):
python scripts/check_deployment_cn.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"成功时,你会看到模型返回的完整思维链(Thought Chain),例如:
“用户想搜索南京旅游攻略。当前屏幕是小红书首页,顶部有搜索框。我需要先点击搜索框,再输入‘南京旅游攻略’,最后点击搜索按钮……”
这说明:截图能传、API能通、模型能理解、动作能规划——四通八达。
4. 实战操作:从一句指令到完整任务执行
一切就绪,现在进入最激动人心的部分:让你的AI替你操作手机。
4.1 单次任务执行:命令行直达结果
以“打开小红书搜索美食”为例,执行以下命令:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \ "打开小红书搜索美食"执行过程会逐行打印日志:
📸 Taking screenshot...→ 截图上传;🧠 Sending to model...→ 请求API;🖱 Action: CLICK (x=520, y=120)→ 模型返回坐标并点击;⌨ Action: INPUT "美食"→ 自动输入文字;Action: CLICK (x=890, y=120)→ 点击搜索按钮;Task completed.→ 任务结束。
整个过程约20–40秒(取决于网络延迟),期间你可以看着手机屏幕自动完成所有操作——就像有人在帮你点。
4.2 交互式模式:像聊天一样下指令
不想每次敲长命令?启动交互模式:
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx"运行后会出现提示符:
Enter your task:此时输入任意自然语言指令,例如:
帮我订一杯瑞幸拿铁,送到公司前台在微博搜“华为MateXT发布会”,截前三条热门评论发给我打开高德地图,导航到最近的苹果授权店
AI会自动解析意图、判断当前App状态、规划动作序列,并实时反馈每一步执行结果。你只需看着手机动起来。
4.3 进阶技巧:提升成功率的三个实用建议
指令越具体,成功率越高
“帮我查快递” → 模型无法知道单号;
“打开菜鸟裹裹,查询单号 SF1234567890 的物流信息” → 明确App、动作、目标。复杂任务分步下达更可靠
一次性让AI完成“搜攻略→整理→发微信”可能超时。建议:
第一步:打开小红书搜索“南京两日游攻略”;
第二步:把当前页面文字内容整理成清晰行程表,分Day1/Day2,含景点、推荐美食、交通建议;
第三步:复制以上内容,用微信发给张三(需提前登录微信并置顶聊天窗口)。敏感操作有人工兜底
当遇到登录页、验证码、支付确认等场景,Open-AutoGLM 会主动暂停,输出:Detected login screen. Please manually complete verification, then press Enter to continue.
你只需手动输完验证码,回车即可继续——安全与自动化兼得。
5. 实测案例深度还原:如何用一句话生成南京旅游攻略
我们复现原文中的高价值案例,全程记录关键节点:
用户指令:打开小红书搜索南京两天一夜旅游攻略,整理成带景点、美食、住宿的详细行程
AI执行链路(精简版):
- 检测到手机未打开小红书 → 启动App;
- 识别首页搜索框 → 点击;
- 输入“南京两天一夜旅游攻略” → 点击搜索;
- 解析搜索结果页,定位高赞笔记 → 点击第一条;
- 对长图文进行多轮OCR+语义提取,结构化信息;
- 调用大模型重写为清晰行程(含emoji排版、分段标题、推荐理由);
- 输出最终文本(见文末完整结果)。
效果亮点:
- 准确识别小红书UI控件(即使字体模糊、背景复杂);
- 区分“攻略正文”与“广告卡片”,过滤干扰信息;
- 将口语化描述(如“梧桐大道超美”)转化为可执行建议(“欣赏秋天的梧桐树美景”);
- 输出格式兼顾可读性与机器友好性(Markdown结构清晰,便于后续接入微信Bot)。
补充说明:实测中发现,若小红书首页已存在搜索历史,AI可能误点旧记录。此时只需加一句前缀:“先清空搜索历史,再搜索……”,即可规避。
6. 常见问题与解决方案:少走弯路的实战经验
| 问题现象 | 可能原因 | 快速解决 |
|---|---|---|
adb devices不显示设备 | USB调试未开启 / 数据线仅充电 / 驱动未安装 | 换线、重启手机、安装手机品牌ADB驱动 |
执行时卡在Taking screenshot... | 截图权限被拒(尤其MIUI/HarmonyOS) | 手机设置 → 特殊权限 → 显示悬浮窗/无障碍服务 → 全部开启;或临时关闭“纯净模式” |
API返回401 Unauthorized | API Key错误 / 过期 / 未绑定模型权限 | 登录智谱后台检查Key状态,确认已开通autoglm-phone模型权限 |
| 输入中文乱码或失败 | ADB Keyboard未设为默认输入法 | 进入手机“设置 → 语言与输入法”,确保ADB Keyboard在首位并启用 |
| 模型返回空动作或胡言乱语 | 指令歧义 / 当前界面信息不足 / API限流 | 换更明确指令(如加“在小红书App内”);或稍等1分钟重试 |
一个真实避坑经验:
某次测试中,AI反复尝试点击“搜索”按钮却失败。排查发现,小红书新版将搜索框设计为“点击后才展开输入框”,而模型误判为“已展开”。解决方案很简单——在指令末尾加上:(注意:搜索框需先点击一次再输入)。模型立刻调整动作序列,一次成功。
这印证了一个事实:Phone Agent不是黑盒,而是可沟通、可引导的协作者。
7. 它能做什么?不止于“点一点”,而是重构人机协作方式
Open-AutoGLM 的价值,远不止于“帮点手机”。它正在重新定义“自动化”的边界:
- 对个人用户:
把重复性手机操作(查账单、填问卷、比价、追星打卡)交给AI,每天节省15–30分钟; - 对开发者:
提供标准化的screen → thought → action接口,可快速集成到自己的App测试、UI巡检、无障碍辅助工具中; - 对企业场景:
构建无人值守的App审核机器人(自动遍历所有页面检测崩溃)、客服话术训练沙盒(模拟用户各种点击路径)、数字员工培训平台(AI演示标准操作流程)。
更重要的是,它的技术路径是开放的:
- 视觉理解用VLM(非OCR),能读懂图标、颜色、布局关系;
- 动作规划用LLM,支持长思维链与自我修正;
- 控制层用ADB,兼容所有安卓设备,无需Root、无需定制ROM。
这意味着——它不绑定硬件,不锁定生态,不制造厂商墙。你今天用它操作小红书,明天就能让它帮你调试自家App的登录流程。
8. 总结:这不是未来,而是你今晚就能跑起来的现实
回顾整个流程:
🔹 你没买新硬件,没装显卡驱动,没编译一行C++;
🔹 你只用了30分钟配置,一条命令启动,一句话下达指令;
🔹 你亲眼看见手机屏幕自己亮起、自己滑动、自己输入、自己呈现结果。
Open-AutoGLM 的意义,不在于它多强大,而在于它足够“朴素”——用最通用的工具(ADB)、最开放的模型(智谱API)、最自然的交互(中文指令),把前沿的AI Agent能力,塞进了每个人的日常数字生活里。
它仍有优化空间:响应速度可进一步压缩,多App协同需更鲁棒的状态管理,复杂表单填写尚需人工微调。但这些,恰恰是接下来最有意思的探索方向。
如果你也想亲手试试,现在就可以:
- 插上手机,打开开发者选项;
- 配好ADB,装好ADB Keyboard;
- 复制那条
python main.py ...命令,把“南京旅游攻略”换成你想做的事。
技术从不遥远。它就在你下一次解锁手机的指尖之下。
--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。