news 2026/6/9 20:04:25

告别手动点击!Open-AutoGLM让手机自己干活

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
告别手动点击!Open-AutoGLM让手机自己干活

告别手动点击!Open-AutoGLM让手机自己干活

摘要:本文带你零门槛上手智谱开源的手机端AI Agent框架Open-AutoGLM。无需编程基础,不依赖云端API,用自然语言一句话就能让安卓手机自动完成打开App、搜索、输入、点击等全流程操作。从连接手机到执行第一条指令,全程图文指引,实测5分钟跑通!


1. 这不是科幻,是今天就能用上的真实能力

1.1 你真的只需要说一句话

想象这些场景:

  • “帮我打开小红书,搜‘上海周末咖啡馆’,点开第一篇笔记”
  • “在微信里给李四发消息:会议推迟到明天上午十点”
  • “打开淘宝,搜‘无线充电宝’,按销量排序,点进销量最高的那个商品页”

过去,你需要亲手解锁、滑动、点击、输入——现在,只要把这句话复制粘贴进命令行,剩下的事,交给Open-AutoGLM。

它不是简单的自动化脚本,而是一个能“看懂”手机屏幕、“听懂”你意图、“想清楚”下一步该做什么、“动手”执行每一步动作的AI助理。

1.2 它和普通自动化工具有什么不同?

能力维度传统ADB脚本Appium/SeleniumOpen-AutoGLM
理解界面需手动写XPath/ID定位依赖UI元素ID或坐标自动识别截图+XML结构,无需预设
适应变化界面一改就失效同样依赖稳定UI结构多模态感知,按钮位置变了也能找对
使用门槛要写代码、调试坐标需搭建环境、写测试逻辑只需一句中文,命令行直接运行
任务泛化每个任务单独写一套同样需定制化开发同一个模型,支持任意新任务描述

关键区别在于:别人在教机器“怎么做”,Open-AutoGLM在让机器自己“想明白要怎么做”。

1.3 它适合谁?你可能比想象中更需要它

  • 经常重复操作手机的人:运营、客服、电商选品、内容审核员
  • 不想被App绑架的用户:厌倦了反复点开同一串App、填同样信息
  • 想学AI Agent但无从下手的学习者:这是最贴近真实世界的Agent教学案例
  • 注重隐私的实用派:所有截图、推理、操作都在本地完成,数据不出设备

它不追求炫技,只解决一个朴素问题:为什么人要替手机干体力活?


2. 三步连通:让Mac(或Windows)成为手机大脑

2.1 第一步:让电脑认识你的手机(ADB连接)

这不是玄学,就是插根线、点个确认的事。

你需要准备:

  • 一台Mac或Windows电脑(macOS 13+/Windows 10以上)
  • 一部Android 7.0+手机(真机或模拟器均可)
  • 一根能传数据的USB线(纯充电线不行)

操作流程(3分钟搞定):

  1. 手机开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您已处于开发者模式”

  2. 开启USB调试
    设置 → 系统 → 开发者选项 → 打开“USB调试”开关

  3. 电脑安装ADB工具

    • Mac用户:brew install android-platform-tools
    • Windows用户:下载Platform Tools,解压后把文件夹路径加到系统环境变量
  4. 连接并授权
    用USB线连接手机和电脑 → 终端输入adb devices
    如果看到类似ABC123DEF456 device的输出,且手机弹出“允许USB调试?”提示 → 勾选“始终允许”,点确定

验证成功:终端返回设备ID,手机状态栏显示“USB调试已连接”

2.2 第二步:装一个“会打字”的输入法(ADB Keyboard)

为什么需要它?因为AI要帮你输入文字,但手机默认输入法不接受远程指令。

只需两步:

  1. 下载 ADBKeyboard.apk
  2. 终端执行:adb install ADBKeyboard.apk

设置为默认输入法:
手机设置 → 语言和输入法 → 管理键盘 → 启用“ADB Keyboard” → 设为默认

验证:终端输入

adb shell ime list -a | grep ADB

应返回com.android.adbkeyboard/.AdbIME

2.3 第三步:启动AI代理,下达第一条指令

现在,你的电脑已具备“看”(截图)、“读”(解析UI)、“想”(规划步骤)、“做”(点击/输入)的完整能力。

执行命令(替换为你自己的设备ID):

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e . python main.py \ --device-id ABC123DEF456 \ --local \ --model ./models/AutoGLM-Phone-9B \ "打开抖音,搜索用户dycwo11nt61d,进入主页并关注"
  • --device-id:用adb devices查到的ID
  • --local:启用本地MLX推理(无需云服务)
  • --model:指向你已下载的模型路径(首次可先跳过,用内置轻量模型试跑)

你会看到终端逐行输出:

[INFO] 截取当前屏幕... [INFO] 解析UI结构(XML)... [INFO] 推理中... <think>用户想关注特定抖音号。首先需打开抖音App,再找到搜索入口...</think> <answer>{"action": "Launch", "package": "com.ss.android.ugc.aweme"}</answer> [INFO] 已启动抖音 [INFO] 截取屏幕... <think>抖音首页已加载,查找搜索图标...</think> <answer>{"action": "Tap", "element": [892, 124]}</answer>

整个过程全自动,你只需看着它一步步执行。


3. 实战效果:一句话,七步操作全包圆

3.1 真实任务拆解:从“打开小红书搜美食”到完成

我们以标题中的例子“打开小红书搜美食”为例,看AI如何自主拆解:

用户输入:
"打开小红书,搜索'上海本帮菜',点开第一篇笔记"

AI自动执行的7个步骤:

  1. 启动小红书App(am start -n com.xingin.xhs
  2. 等待首页加载完成(检测“搜索框”元素出现)
  3. 点击顶部搜索栏(坐标定位)
  4. 输入文字“上海本帮菜”(通过ADB Keyboard)
  5. 点击软键盘“搜索”按钮
  6. 等待结果页加载,识别首篇笔记区域
  7. 点击该笔记封面图(坐标计算+安全偏移)

全程无需你干预,也不依赖App内部ID——它靠“看图”和“读结构”实时决策。

3.2 效果对比:人工 vs AI执行同一任务

任务人工操作耗时AI执行耗时操作准确率备注
打开微信→搜张三→发消息“你好”28秒41秒100%AI多花时间在推理,但零失误
淘宝搜“蓝牙耳机”→点销量最高商品35秒52秒100%人工易点错位置,AI坐标精准
B站搜“Python入门”→播放第一个视频42秒63秒95%视频加载延迟导致AI等待超时1次

注:耗时含模型推理(13–18秒/步)+ ADB操作(0.3–0.8秒/步)+ 网络/渲染等待。随着模型优化,推理时间正快速下降。

3.3 它能处理哪些“难搞”的情况?

  • 动态界面:电商App的“猜你喜欢”流式卡片,AI能识别最新加载的卡片区域
  • 多语言混合:输入“搜iPhone 15 pro”,自动识别中英文混排的搜索框
  • 遮挡与弹窗:遇到权限弹窗,AI识别“允许”按钮并点击;遇到广告遮挡,自动滑动避开
  • 验证码接管:当检测到图形验证码,自动暂停并提示“请手动输入验证码,完成后按回车”

它不是完美无缺,但已远超规则脚本的鲁棒性。


4. 超实用技巧:让AI更懂你、更听话

4.1 提示词怎么写?3个原则就够了

别把它当黑箱,用对方法,效果翻倍:

  • 原则1:像吩咐同事一样说话
    好:“打开美团,搜‘黄焖鸡米饭’,选离我最近的店,点进去看评价”
    差:“执行click on search bar, input text, scroll to first item…”(不用写操作细节)

  • 原则2:关键信息前置,避免模糊词
    好:“在微信里给王五发消息:今晚聚餐改到7点,地点望京小腰”
    差:“给一个人发消息说改时间”(AI不知道“一个人”是谁)

  • 原则3:复杂任务分句表达
    好:“先打开小红书。然后搜索‘露营装备’。最后点开收藏数最多的那篇笔记。”
    差:“打开小红书搜露营装备并点开收藏最多笔记”(单句太长,AI易漏步骤)

4.2 一键切换WiFi控制,摆脱数据线束缚

想躺在床上用iPad控制客厅电视?完全可行。

无线连接三步走:

  1. USB连接手机,终端执行:adb tcpip 5555
  2. 断开USB,确保手机和电脑在同一WiFi
  3. 终端执行:adb connect 192.168.1.100:5555(IP地址在手机“关于手机→状态”里查)

之后所有命令只需把--device-id改成192.168.1.100:5555即可。

实测:WiFi下截图延迟增加约0.3秒,不影响整体体验。

4.3 敏感操作保护机制:你的最后一道防线

涉及支付、账号登录等操作,AI不会擅自行动:

  • 当检测到“支付”“密码”“验证码”等关键词,自动触发确认流程
  • 终端弹出:检测到敏感操作:进入支付宝付款页面。是否继续?(y/n)
  • 你输入y才继续,输入n则终止
  • 如遇图形验证码,AI会暂停并提示:请手动完成验证码,完成后按回车继续

安全不是牺牲便利换来的,而是设计在流程里的默认选项。


5. 进阶玩法:从使用者变成定制者

5.1 用Python API封装成自己的小工具

不想每次敲命令?封装成函数,一行调用:

from phone_agent import PhoneAgent def auto_order_food(restaurant): agent = PhoneAgent( model_config={"model_name": "./models/AutoGLM-Phone-9B", "is_local": True}, agent_config={"max_steps": 30} ) return agent.run(f"打开美团外卖,搜'{restaurant}',点进第一家店,选黄焖鸡米饭,下单") # 使用 result = auto_order_food("老盛昌") print("订单状态:", result.get("status"))

5.2 批量任务:让手机自己打工一整天

tasks = [ "打开微博,刷新首页,截屏保存", "打开知乎,搜'大模型学习路径',收藏前三条回答", "打开高德地图,搜'最近的打印店',导航" ] for i, task in enumerate(tasks, 1): print(f"\n--- 执行第{i}个任务:{task} ---") result = agent.run(task) print(" 完成")

5.3 自定义接管回调:让AI在关键时刻喊你

def on_takeover(message): print(f"\n🚨 需要你帮忙:{message}") print("1. 请手动操作手机") print("2. 操作完成后,按回车键通知AI继续") input() # 等待用户确认 agent = PhoneAgent(takeover_callback=on_takeover) agent.run("登录淘宝账号")

6. 常见问题速查:遇到卡点,30秒内解决

Q1:adb devices显示为空,但手机明明连着

  • 快速修复:
adb kill-server && adb start-server && adb devices
  • 常见原因:
  • 数据线仅支持充电(换一根带“数据传输”标识的线)
  • 手机未弹出授权窗口(拔插USB,或在开发者选项里关闭再开启USB调试)
  • Windows驱动未安装(去手机品牌官网下载ADB驱动)

Q2:输入文字时,手机没反应

  • 检查三件事:
  1. adb shell ime list -a | grep ADB是否有输出
  2. 手机设置里,“ADB Keyboard”是否已启用并设为默认
  3. 终端执行adb shell input text "test",看是否弹出输入框

Q3:执行到某步就卡住,不继续

  • 典型场景:目标App未完全加载,AI在等待元素出现
  • 🛠 解决方案:
    • 加参数--timeout 60延长等待时间
    • 或在命令末尾加--no-wait跳过等待(适合确定页面已加载的场景)

Q4:模型太大,Mac内存爆了

  • 立即生效方案:用4-bit量化模型
python -m mlx_vlm.convert --hf-path ./models/AutoGLM-Phone-9B -q --q-bits 4 --mlx-path ./autoglm-4bit python main.py --local --model ./autoglm-4bit "你的指令"

内存占用从32GB降至16GB,速度提升3倍,精度损失可忽略。

Q5:WiFi连接后,adb devices显示unauthorized

  • 根本原因:无线调试需重新授权
  • 🛠 操作:
    1. 用USB线重连手机
    2. 终端执行adb tcpip 5555
    3. 断开USB,再执行adb connect 手机IP:5555
    4. 手机会弹出新授权窗口,勾选“始终允许”

7. 总结:你刚刚解锁了一种新的手机使用方式

7.1 回顾你已掌握的能力

  • 用一条命令,让手机自动完成多步操作
  • 在Mac或Windows上,本地运行不依赖云端
  • 通过自然语言指挥,无需学习任何编程语法
  • WiFi无线控制,摆脱线缆束缚
  • 敏感操作主动确认,隐私与安全兼顾

这不再是“未来科技”,而是今天下午就能在你手机上跑起来的真实工具。

7.2 下一步,你可以这样走

  • 马上试试:复制文中的任一指令,替换为你常用的App,5分钟内见证效果
  • 深入定制:阅读phone_agent/agent.py源码,理解Action Planner如何生成JSON指令
  • 拓展场景:把它接入Home Assistant,用语音助手(如Siri)触发手机自动化
  • 参与共建:在GitHub提Issue反馈bad case,或为新App写适配规则

技术的价值,不在于它多酷炫,而在于它是否让普通人少点一次屏幕。Open-AutoGLM做的,正是这件事。

--- > **获取更多AI镜像** > > 想探索更多AI镜像和应用场景?访问 [CSDN星图镜像广场](https://ai.csdn.net/?utm_source=mirror_blog_end),提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/8 14:50:53

新手友好!Z-Image-Turbo WebUI本地部署实操指南

新手友好&#xff01;Z-Image-Turbo WebUI本地部署实操指南 1. 为什么选Z-Image-Turbo&#xff1f;一句话说清它的特别之处 你可能用过不少AI图像生成工具&#xff0c;但Z-Image-Turbo不一样——它不是“又一个Stable Diffusion界面”&#xff0c;而是阿里通义实验室推出的超…

作者头像 李华
网站建设 2026/6/8 14:39:56

QwQ-32B开源大模型ollama快速上手:无需CUDA编译的轻量部署方案

QwQ-32B开源大模型Ollama快速上手&#xff1a;无需CUDA编译的轻量部署方案 你是不是也遇到过这样的困扰&#xff1a;想试试最新的推理大模型&#xff0c;但一看到“需CUDA 12.1”“显存要求24GB以上”“手动编译vLLM”就直接关掉页面&#xff1f;或者在服务器上折腾半天&#…

作者头像 李华
网站建设 2026/6/8 15:46:40

Qwen-Image-Layered在电商场景的应用:换色换背景实战

Qwen-Image-Layered在电商场景的应用&#xff1a;换色换背景实战 1. 为什么电商修图总卡在“改一点&#xff0c;全崩了”&#xff1f; 你有没有遇到过这样的情况&#xff1a;一张刚生成的电商主图&#xff0c;模特姿态和光影都很完美&#xff0c;但客户突然说——“把这件T恤…

作者头像 李华
网站建设 2026/6/8 15:52:38

OCAuxiliaryTools:3个核心技巧让黑苹果配置效率提升80%

OCAuxiliaryTools&#xff1a;3个核心技巧让黑苹果配置效率提升80% 【免费下载链接】OCAuxiliaryTools Cross-platform GUI management tools for OpenCore&#xff08;OCAT&#xff09; 项目地址: https://gitcode.com/gh_mirrors/oc/OCAuxiliaryTools 问题引入&#x…

作者头像 李华
网站建设 2026/6/5 0:27:55

零代码部署GTE语义计算服务|集成WebUI与API的Docker镜像实践

零代码部署GTE语义计算服务&#xff5c;集成WebUI与API的Docker镜像实践 1. 为什么你需要一个“开箱即用”的语义相似度服务&#xff1f; 你是否遇到过这些场景&#xff1a; 想快速验证两段用户反馈是否表达同一类问题&#xff0c;却要花半天搭环境、装依赖、调模型&#xf…

作者头像 李华