告别手动点击！Open-AutoGLM让手机自己干活-洪萨配资

告别手动点击！Open-AutoGLM让手机自己干活

摘要：本文带你零门槛上手智谱开源的手机端AI Agent框架Open-AutoGLM。无需编程基础，不依赖云端API，用自然语言一句话就能让安卓手机自动完成打开App、搜索、输入、点击等全流程操作。从连接手机到执行第一条指令，全程图文指引，实测5分钟跑通！

1. 这不是科幻，是今天就能用上的真实能力

1.1 你真的只需要说一句话

想象这些场景：

“帮我打开小红书，搜‘上海周末咖啡馆’，点开第一篇笔记”
“在微信里给李四发消息：会议推迟到明天上午十点”
“打开淘宝，搜‘无线充电宝’，按销量排序，点进销量最高的那个商品页”

过去，你需要亲手解锁、滑动、点击、输入——现在，只要把这句话复制粘贴进命令行，剩下的事，交给Open-AutoGLM。

它不是简单的自动化脚本，而是一个能“看懂”手机屏幕、“听懂”你意图、“想清楚”下一步该做什么、“动手”执行每一步动作的AI助理。

1.2 它和普通自动化工具有什么不同？

能力维度	传统ADB脚本	Appium/Selenium	Open-AutoGLM
理解界面	需手动写XPath/ID定位	依赖UI元素ID或坐标	自动识别截图+XML结构，无需预设
适应变化	界面一改就失效	同样依赖稳定UI结构	多模态感知，按钮位置变了也能找对
使用门槛	要写代码、调试坐标	需搭建环境、写测试逻辑	只需一句中文，命令行直接运行
任务泛化	每个任务单独写一套	同样需定制化开发	同一个模型，支持任意新任务描述

关键区别在于：别人在教机器“怎么做”，Open-AutoGLM在让机器自己“想明白要怎么做”。

1.3 它适合谁？你可能比想象中更需要它

经常重复操作手机的人：运营、客服、电商选品、内容审核员
不想被App绑架的用户：厌倦了反复点开同一串App、填同样信息
想学AI Agent但无从下手的学习者：这是最贴近真实世界的Agent教学案例
注重隐私的实用派：所有截图、推理、操作都在本地完成，数据不出设备

它不追求炫技，只解决一个朴素问题：为什么人要替手机干体力活？

2. 三步连通：让Mac（或Windows）成为手机大脑

2.1 第一步：让电脑认识你的手机（ADB连接）

这不是玄学，就是插根线、点个确认的事。

你需要准备：

一台Mac或Windows电脑（macOS 13+/Windows 10以上）
一部Android 7.0+手机（真机或模拟器均可）
一根能传数据的USB线（纯充电线不行）

操作流程（3分钟搞定）：

手机开启开发者模式
设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”
开启USB调试
设置 → 系统 → 开发者选项 → 打开“USB调试”开关
电脑安装ADB工具
- Mac用户：brew install android-platform-tools
- Windows用户：下载Platform Tools，解压后把文件夹路径加到系统环境变量
连接并授权
用USB线连接手机和电脑 → 终端输入adb devices
如果看到类似ABC123DEF456 device的输出，且手机弹出“允许USB调试？”提示 → 勾选“始终允许”，点确定

验证成功：终端返回设备ID，手机状态栏显示“USB调试已连接”

2.2 第二步：装一个“会打字”的输入法（ADB Keyboard）

为什么需要它？因为AI要帮你输入文字，但手机默认输入法不接受远程指令。

只需两步：

下载 ADBKeyboard.apk
终端执行：adb install ADBKeyboard.apk

设置为默认输入法：
手机设置 → 语言和输入法 → 管理键盘 → 启用“ADB Keyboard” → 设为默认

验证：终端输入

adb shell ime list -a | grep ADB

应返回com.android.adbkeyboard/.AdbIME

2.3 第三步：启动AI代理，下达第一条指令

现在，你的电脑已具备“看”（截图）、“读”（解析UI）、“想”（规划步骤）、“做”（点击/输入）的完整能力。

执行命令（替换为你自己的设备ID）：

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e . python main.py \ --device-id ABC123DEF456 \ --local \ --model ./models/AutoGLM-Phone-9B \ "打开抖音，搜索用户dycwo11nt61d，进入主页并关注"

--device-id：用adb devices查到的ID
--local：启用本地MLX推理（无需云服务）
--model：指向你已下载的模型路径（首次可先跳过，用内置轻量模型试跑）

你会看到终端逐行输出：

[INFO] 截取当前屏幕... [INFO] 解析UI结构（XML）... [INFO] 推理中... <think>用户想关注特定抖音号。首先需打开抖音App，再找到搜索入口...</think> <answer>{"action": "Launch", "package": "com.ss.android.ugc.aweme"}</answer> [INFO] 已启动抖音 [INFO] 截取屏幕... <think>抖音首页已加载，查找搜索图标...</think> <answer>{"action": "Tap", "element": [892, 124]}</answer>

整个过程全自动，你只需看着它一步步执行。

3. 实战效果：一句话，七步操作全包圆

3.1 真实任务拆解：从“打开小红书搜美食”到完成

我们以标题中的例子“打开小红书搜美食”为例，看AI如何自主拆解：

用户输入：
"打开小红书，搜索'上海本帮菜'，点开第一篇笔记"

AI自动执行的7个步骤：

启动小红书App（am start -n com.xingin.xhs）
等待首页加载完成（检测“搜索框”元素出现）
点击顶部搜索栏（坐标定位）
输入文字“上海本帮菜”（通过ADB Keyboard）
点击软键盘“搜索”按钮
等待结果页加载，识别首篇笔记区域
点击该笔记封面图（坐标计算+安全偏移）

全程无需你干预，也不依赖App内部ID——它靠“看图”和“读结构”实时决策。

3.2 效果对比：人工 vs AI执行同一任务

任务	人工操作耗时	AI执行耗时	操作准确率	备注
打开微信→搜张三→发消息“你好”	28秒	41秒	100%	AI多花时间在推理，但零失误
淘宝搜“蓝牙耳机”→点销量最高商品	35秒	52秒	100%	人工易点错位置，AI坐标精准
B站搜“Python入门”→播放第一个视频	42秒	63秒	95%	视频加载延迟导致AI等待超时1次

注：耗时含模型推理（13–18秒/步）+ ADB操作（0.3–0.8秒/步）+ 网络/渲染等待。随着模型优化，推理时间正快速下降。

3.3 它能处理哪些“难搞”的情况？

动态界面：电商App的“猜你喜欢”流式卡片，AI能识别最新加载的卡片区域
多语言混合：输入“搜iPhone 15 pro”，自动识别中英文混排的搜索框
遮挡与弹窗：遇到权限弹窗，AI识别“允许”按钮并点击；遇到广告遮挡，自动滑动避开
验证码接管：当检测到图形验证码，自动暂停并提示“请手动输入验证码，完成后按回车”

它不是完美无缺，但已远超规则脚本的鲁棒性。

4. 超实用技巧：让AI更懂你、更听话

4.1 提示词怎么写？3个原则就够了

别把它当黑箱，用对方法，效果翻倍：

原则1：像吩咐同事一样说话
好：“打开美团，搜‘黄焖鸡米饭’，选离我最近的店，点进去看评价”
差：“执行click on search bar, input text, scroll to first item…”（不用写操作细节）
原则2：关键信息前置，避免模糊词
好：“在微信里给王五发消息：今晚聚餐改到7点，地点望京小腰”
差：“给一个人发消息说改时间”（AI不知道“一个人”是谁）
原则3：复杂任务分句表达
好：“先打开小红书。然后搜索‘露营装备’。最后点开收藏数最多的那篇笔记。”
差：“打开小红书搜露营装备并点开收藏最多笔记”（单句太长，AI易漏步骤）

4.2 一键切换WiFi控制，摆脱数据线束缚

想躺在床上用iPad控制客厅电视？完全可行。

无线连接三步走：

USB连接手机，终端执行：adb tcpip 5555
断开USB，确保手机和电脑在同一WiFi
终端执行：adb connect 192.168.1.100:5555（IP地址在手机“关于手机→状态”里查）

之后所有命令只需把--device-id改成192.168.1.100:5555即可。

实测：WiFi下截图延迟增加约0.3秒，不影响整体体验。

4.3 敏感操作保护机制：你的最后一道防线

涉及支付、账号登录等操作，AI不会擅自行动：

当检测到“支付”“密码”“验证码”等关键词，自动触发确认流程
终端弹出：检测到敏感操作：进入支付宝付款页面。是否继续？(y/n)
你输入y才继续，输入n则终止
如遇图形验证码，AI会暂停并提示：请手动完成验证码，完成后按回车继续

安全不是牺牲便利换来的，而是设计在流程里的默认选项。

5. 进阶玩法：从使用者变成定制者

5.1 用Python API封装成自己的小工具

不想每次敲命令？封装成函数，一行调用：

from phone_agent import PhoneAgent def auto_order_food(restaurant): agent = PhoneAgent( model_config={"model_name": "./models/AutoGLM-Phone-9B", "is_local": True}, agent_config={"max_steps": 30} ) return agent.run(f"打开美团外卖，搜'{restaurant}'，点进第一家店，选黄焖鸡米饭，下单") # 使用 result = auto_order_food("老盛昌") print("订单状态：", result.get("status"))

5.2 批量任务：让手机自己打工一整天

tasks = [ "打开微博，刷新首页，截屏保存", "打开知乎，搜'大模型学习路径'，收藏前三条回答", "打开高德地图，搜'最近的打印店'，导航" ] for i, task in enumerate(tasks, 1): print(f"\n--- 执行第{i}个任务：{task} ---") result = agent.run(task) print(" 完成")

5.3 自定义接管回调：让AI在关键时刻喊你

def on_takeover(message): print(f"\n🚨 需要你帮忙：{message}") print("1. 请手动操作手机") print("2. 操作完成后，按回车键通知AI继续") input() # 等待用户确认 agent = PhoneAgent(takeover_callback=on_takeover) agent.run("登录淘宝账号")

6. 常见问题速查：遇到卡点，30秒内解决

Q1：`adb devices`显示为空，但手机明明连着

快速修复：

adb kill-server && adb start-server && adb devices

常见原因：
数据线仅支持充电（换一根带“数据传输”标识的线）
手机未弹出授权窗口（拔插USB，或在开发者选项里关闭再开启USB调试）
Windows驱动未安装（去手机品牌官网下载ADB驱动）

Q2：输入文字时，手机没反应

检查三件事：

adb shell ime list -a | grep ADB是否有输出
手机设置里，“ADB Keyboard”是否已启用并设为默认
终端执行adb shell input text "test"，看是否弹出输入框

Q3：执行到某步就卡住，不继续

典型场景：目标App未完全加载，AI在等待元素出现
🛠 解决方案：
- 加参数--timeout 60延长等待时间
- 或在命令末尾加--no-wait跳过等待（适合确定页面已加载的场景）

Q4：模型太大，Mac内存爆了

立即生效方案：用4-bit量化模型

python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 --mlx-path ./autoglm-4bit python main.py --local --model ./autoglm-4bit "你的指令"

内存占用从32GB降至16GB，速度提升3倍，精度损失可忽略。

Q5：WiFi连接后，`adb devices`显示`unauthorized`

根本原因：无线调试需重新授权
🛠 操作：
1. 用USB线重连手机
2. 终端执行adb tcpip 5555
3. 断开USB，再执行adb connect 手机IP:5555
4. 手机会弹出新授权窗口，勾选“始终允许”

7. 总结：你刚刚解锁了一种新的手机使用方式

7.1 回顾你已掌握的能力

用一条命令，让手机自动完成多步操作
在Mac或Windows上，本地运行不依赖云端
通过自然语言指挥，无需学习任何编程语法
WiFi无线控制，摆脱线缆束缚
敏感操作主动确认，隐私与安全兼顾

这不再是“未来科技”，而是今天下午就能在你手机上跑起来的真实工具。

7.2 下一步，你可以这样走

马上试试：复制文中的任一指令，替换为你常用的App，5分钟内见证效果
深入定制：阅读phone_agent/agent.py源码，理解Action Planner如何生成JSON指令
拓展场景：把它接入Home Assistant，用语音助手（如Siri）触发手机自动化
参与共建：在GitHub提Issue反馈bad case，或为新App写适配规则

技术的价值，不在于它多酷炫，而在于它是否让普通人少点一次屏幕。Open-AutoGLM做的，正是这件事。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景？访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end)，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

告别手动点击！Open-AutoGLM让手机自己干活