news 2026/3/12 15:56:02

手机AI代理入门:Open-AutoGLM从安装到运行

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
手机AI代理入门:Open-AutoGLM从安装到运行

手机AI代理入门:Open-AutoGLM从安装到运行

1. 这不是科幻,是今天就能用的手机AI助手

你有没有过这样的时刻:

  • 想在小红书搜“深圳周末露营推荐”,但正开会没法点手机;
  • 想给家人订个蛋糕,却卡在美团里反复切换地址和口味;
  • 测试新App时,一遍遍重复点击登录、首页、商品页、加购……

这些事,现在不用你动手了。

Open-AutoGLM 是智谱AI开源的手机端AI Agent框架,它能把你的自然语言指令,变成真实的手指操作——打开App、滑动页面、输入文字、点击按钮、甚至识别验证码后暂停等你接管。它不靠预设脚本,而是用视觉语言模型“看懂”屏幕,再像真人一样思考下一步该做什么。

这不是远程控制,也不是简单录屏回放。它是真正理解任务意图的AI代理:你说“打开抖音,搜‘AI手机助手’,点开播放量最高的视频,点赞并分享到微信”,它就能一步步拆解、执行、反馈。

这篇文章不讲原理、不堆参数,只做一件事:带你从零开始,15分钟内让AI第一次帮你点开一个App。过程中会避开我踩过的7个典型坑,告诉你哪些设置99%的人会漏掉,哪些指令写法能让成功率从60%提升到95%。

准备好了吗?我们直接开工。

2. 三件套:电脑、手机、ADB——缺一不可

在敲任何命令前,请确认这三样东西已就位。少一个,后面全卡住。

2.1 Python环境:3.10+是硬门槛

别用系统自带的Python,也别用太新的3.12——Open-AutoGLM在3.10–3.11区间最稳。
检查方式很简单:

python --version

如果显示Python 3.9.18或更低,去python.org下载3.11.x安装包,勾选“Add Python to PATH”。
如果显示Python 3.12.3,建议另装3.11(用pyenv或Miniconda管理多版本)。

为什么强调版本?
项目依赖的transformersPillow在3.12上有兼容问题,你会在pip install时看到一堆红色报错,最后卡在Building wheel for tokenizers不动。

2.2 ADB工具:电脑遥控手机的“遥控器”

ADB(Android Debug Bridge)是安卓开发者的标配,但对普通用户有点陌生。简单说:它就是让电脑能“看见”“摸到”你手机的桥梁。

下载与配置一步到位:

  • 去Android官方平台工具页下载对应系统的压缩包(Windows选.zip,Mac选.tar.gz
  • 解压到一个固定路径,比如:
    • Windows:C:\adb
    • Mac:~/platform-tools

配置环境变量(关键!很多人这步失败):

  • Windows

    1. 右键“此电脑”→属性→高级系统设置→环境变量
    2. 在“系统变量”里找到Path,点编辑→新建→粘贴C:\adb
    3. 打开新命令行窗口,输入:
      adb version
      看到类似Android Debug Bridge version 1.0.41即成功
  • Mac
    在终端运行:

    echo 'export PATH=$PATH:~/platform-tools' >> ~/.zshrc source ~/.zshrc adb version

注意:Mac用户如果用的是bash而非zsh,请把~/.zshrc换成~/.bash_profile。不确定的话,先运行echo $SHELL看输出。

2.3 安卓手机:7.0+ + 开发者模式 + 两个开关

你的手机必须满足三点:
Android 7.0及以上(2016年后的主流机型基本都行)
开启“开发者选项”(设置→关于手机→连点7次“版本号”)
同时打开两个开关(90%的人只开第一个!):

  • USB调试(在“开发者选项”里)
  • USB调试(安全设置)(也在同一页面,名字可能叫“USB安装”或“通过USB验证应用”,不同品牌位置略有差异)

为什么必须开第二个?
没有它,ADB能识别设备,但无法执行点击、滑动、输入等操作——你会看到AI成功打开App,然后彻底静止。

额外一步:安装ADB Keyboard(中文输入必备)

  • 下载ADBKeyboard.apk
  • 用命令安装:
    adb install ADBKeyboard.apk
  • 手机设置→语言和输入法→启用“ADB Keyboard”(不需要设为默认输入法,系统会在需要时自动调用)

3. 项目部署:5分钟克隆+安装

一切就绪,现在把Open-AutoGLM拉到本地。

3.1 克隆代码库

git clone https://github.com/zai-org/Open-AutoGLM.git cd Open-AutoGLM

如果没装Git,去git-scm.com下载安装,一路默认即可。

3.2 创建虚拟环境(强烈建议)

避免依赖冲突,用独立环境跑这个项目:

# Windows python -m venv venv venv\Scripts\activate # Mac/Linux python3 -m venv venv source venv/bin/activate

激活后,命令行前会出现(venv)标识。

3.3 安装依赖(带镜像加速)

国内网络下,用清华源快得多:

pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple pip install -e .

如果某条依赖安装失败(比如flash-attn),先跳过,后续用不到可删掉。核心功能不依赖它。

成功标志:命令行无红色报错,最后一行显示Successfully installed ...

4. 模型方案选择:云端API or 本地部署?

你有两个路可走。选错方案,可能多花2小时还跑不通。

4.1 新手首选:智谱AI云端API(5分钟启动)

没显卡、不想折腾、只想先看看效果?用这个。

三步搞定:

  1. 去智谱AI开放平台注册账号
  2. 进入API Key管理页,创建一个Key
  3. 运行命令(替换your_api_key_here):
python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_api_key_here" \ "打开微信,给文件传输助手发送消息:AI代理测试成功!"

提示:首次使用有免费额度,够跑50+次任务。响应时间约2–4秒,稳定不掉线。

4.2 本地部署:适合有RTX 3090+的玩家

如果你有16GB显存以上的显卡(如RTX 4090、A100),本地部署延迟更低、隐私更好、长期更省钱。

用vLLM一键启动(推荐):

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --model zai-org/AutoGLM-Phone-9B \ --port 8000 \ --max-model-len 25480 \ --mm-processor-cache-type shm \ --mm-processor-kwargs "{\"max_pixels\":5000000}" \ --limit-mm-per-prompt "{\"image\":10}"

关键参数说明(不用全记,但要知道):

  • --port 8000:服务监听端口,后面main.py要连这里
  • --max-model-len 25480:必须设,否则模型加载失败
  • --mm-processor-kwargs:控制图像处理最大像素,设太小会截断屏幕截图

⏱ 首次运行会自动下载18GB模型文件(约15–30分钟,取决于网速)。完成后访问http://localhost:8000/docs能看到OpenAPI文档。

5. 设备连接:USB or WiFi?怎么连都不掉

无论用哪种模型方案,手机都得连上电脑。两种方式,按需选择。

5.1 USB直连(最稳,新手必试)

手机用原装数据线连电脑 → 手机弹窗点“允许USB调试” → 运行:

adb devices

正常输出应类似:

List of devices attached ZY2252KQFV device

如果显示unauthorized,去手机通知栏点授权;如果空白,重启ADB:

adb kill-server && adb start-server

5.2 WiFi无线连接(适合远程/多设备)

前提:手机和电脑在同一WiFi下。

# 第一次必须用USB连上后执行 adb tcpip 5555 # 断开USB,用WiFi连(IP在手机“关于手机→状态”里找) adb connect 192.168.1.100:5555

查手机IP:设置→WLAN→点当前网络→IP地址。如果连不上,关掉手机“智能WiFi切换”或“WLAN+”功能。

6. 第一次运行:见证AI接管手机

现在,所有齿轮都已咬合。执行这条命令,见证奇迹:

python main.py \ --device-id ZY2252KQFV \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘AI手机助手’,点击第一个笔记"

替换ZY2252KQFV为你自己的设备ID(adb devices查到的);如果用云端API,把--base-url换成https://open.bigmodel.cn/api/paas/v4,并加上--apikey

你会看到:

  1. 命令行快速滚动日志(Taking screenshot...,Sending to model...,Planning action...
  2. 手机屏幕自动亮起 → 启动小红书 → 顶部出现搜索框 → 输入文字 → 点击搜索 → 列表加载 → 点击第一条

整个过程约8–15秒。第一次看到AI自己完成全流程,真的会愣住。

7. 让AI更听话的4个实战技巧

指令写得好,成功率翻倍。这是我反复测试总结的“人话转AI指令”心法。

7.1 指令必须带“动作主体”,别只说“做什么”

不好:“搜美食”
好:“打开美团,搜索‘北京烤鸭’”

不好:“看未读消息”
好:“打开微信,查看最近3条未读消息”

原因:AI需要明确上下文——在哪个App?针对什么内容?范围多大?

7.2 复杂任务分两步走,别塞进一句话

危险:“打开淘宝,搜蓝牙耳机,选价格200–500元的,加入购物车,下单付款”
安全:
第一步:打开淘宝,搜索‘蓝牙耳机’,筛选价格200–500元
第二步(等页面加载完):点击第一个商品,加入购物车

为什么?
支付环节涉及密码、人脸识别,AI会主动触发Take_over人工接管。强行让它走完,大概率卡死。

7.3 善用交互模式,像聊天一样指挥

想连续操作?别反复敲命令,用交互模式:

python main.py \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone" \ --apikey "your_key" \ --device-id ZY2252KQFV

进入后,直接输入:

> 打开抖音 > 搜索‘AI教程’ > 点赞第一条视频 > 分享到微信

每输一条,AI执行一条,实时反馈结果。比写脚本还快。

7.4 中文输入失效?检查这三个点

如果AI能点搜索框但输不出字:

  1. adb shell ime list -s看是否列出com.android.adbkeyboard/.AdbIME
  2. 手机设置→语言和输入法→确认“ADB Keyboard”已启用(灰色开关变蓝)
  3. 运行adb shell settings put secure default_input_method com.android.adbkeyboard/.AdbIME强制设为默认(临时)

8. 踩坑急救包:7个高频问题速查

部署中最耗时的不是安装,而是排错。我把最常遇到的7个问题浓缩成“一句话解决方案”。

问题现象一句话解决
adb devices显示空白adb kill-server && adb start-server && adb devices,再检查USB线和驱动
能启动App但点不了任何按钮立刻去手机“开发者选项”打开“USB调试(安全设置)”
输入中文时显示方块或乱码Windows:命令前加set PYTHONIOENCODING=utf-8 &&;Mac:终端运行export PYTHONIOENCODING=utf-8
截图是黑屏(尤其银行/支付类App)正常!这是App主动屏蔽截图,AI会跳过或提示接管,无需处理
模型响应超时或返回空云端API:检查网络和配额;本地部署:确认--max-model-len 25480已设置,且显存充足
运行main.pyModuleNotFoundError: No module named 'phone_agent'确认在Open-AutoGLM根目录下运行,且已执行pip install -e .
任务执行一半卡住不动手机手动点掉弹窗广告,或加--timeout 60参数延长等待时间

9. 能做什么?50+主流App实测清单

Open-AutoGLM不是玩具,它已适配国内绝大多数日常App。以下是我们实测的可用性分级(=稳定可用,=部分功能可用,=暂不支持):

类别App核心能力实测
社交通讯微信、QQ、钉钉发消息、看未读、切换聊天页; 朋友圈互动需接管
电商购物淘宝、京东、拼多多搜索、筛选、查看详情、加购; 下单支付需接管
视频娱乐抖音、B站、快手搜索、滑动刷新、点赞、关注; 视频播放控制(暂停/下一首)
音乐音频网易云、QQ音乐搜索歌手/歌名、播放歌单、收藏; 评论区互动需接管
生活服务美团、大众点评、高德搜索店铺、查看评分、导航启动; 外卖下单流程完整
内容社区小红书、知乎、豆瓣搜索关键词、点击笔记/回答、点赞收藏; 图文识别准确率高

实测数据:在淘宝搜索“无线耳机”,AI识别商品卡片、价格、销量的准确率>92%;在抖音搜索“AI教程”,定位到目标视频并点赞的成功率约85%(失败主因是页面加载慢导致截图延迟)。

10. 进阶玩法:不只是点点点

当你熟悉基础操作后,这些场景会让AI真正成为生产力工具。

10.1 自动化测试(给App开发者)

写个Python脚本,每天凌晨跑一遍核心流程:

from phone_agent import PhoneAgent from phone_agent.model import ModelConfig agent = PhoneAgent( model_config=ModelConfig( base_url="https://open.bigmodel.cn/api/paas/v4", model_name="autoglm-phone", api_key="your_key" ) ) test_cases = [ "打开App,点击首页banner", "滑动到底部,点击‘我的订单’", "返回,点击右上角头像登录" ] for i, case in enumerate(test_cases, 1): result = agent.run(case) print(f"步骤{i}: {case} → {result['status']}")

10.2 定时任务(Mac/Linux用cron,Windows用任务计划程序)

每天早8点自动刷新闻:

# Mac/Linux crontab 0 8 * * * cd /path/to/Open-AutoGLM && python main.py --base-url https://open.bigmodel.cn/api/paas/v4 --model "autoglm-phone" --apikey "key" "打开今日头条,浏览科技频道" >> /tmp/ai_news.log 2>&1

10.3 批量发布(自媒体人福音)

统一文案发到多个平台:

platforms = ["微博", "小红书", "知乎"] content = "【AI手机助手实测】5分钟教会你用Open-AutoGLM自动化日常操作" for app in platforms: agent.run(f"打开{app},发布动态:{content}")

总结

Open-AutoGLM把“用AI操作手机”这件事,从实验室概念变成了你电脑里一个可运行的main.py。它不完美——复杂支付、生物认证、强反爬App仍是挑战;但它足够实用:搜索、浏览、点赞、下单、测试,这些高频低价值操作,现在可以交给AI。

最关键的不是技术多炫,而是它改变了人机关系:你不再需要学习ADB命令、编写UI脚本、研究XPath,只需要说一句“帮我做XX”,剩下的交给它。

如果你今天只做一件事,就去做:
装好ADB,打开手机开发者模式,连上电脑
运行那条python main.py ...命令
看着手机自己亮起、打开App、输入文字、点击搜索

那一刻,你会相信——AI代理,真的来了。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/11 23:39:34

炉石插件HsMod:全方位提升游戏体验增强指南

炉石插件HsMod:全方位提升游戏体验增强指南 【免费下载链接】HsMod Hearthstone Modify Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod HsMod是一款基于BepInEx框架开发的炉石传说插件,能为玩家带来游戏加速、皮肤自…

作者头像 李华
网站建设 2026/3/11 18:38:57

YOLO X Layout API调用指南:快速集成文档分析功能

YOLO X Layout API调用指南:快速集成文档分析功能 欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/150273219 免责声明:本文来源于个人知识与公开资料,仅用于学…

作者头像 李华
网站建设 2026/3/11 22:48:21

提示工程架构师的未来:软件架构师转型的终极目标(预测)

提示工程架构师:软件架构师转型的下一个终极目标? ——从传统架构到AI-native系统的思维跃迁 摘要/引言 当你还在为微服务的熔断机制挠头,或为分布式事务的一致性发愁时,AI-native系统的浪潮已经悄悄重构了软件架构的底层逻辑—…

作者头像 李华
网站建设 2026/3/11 6:46:40

DeepSeek-OCR-2对比评测:vs PaddleOCR vs LayoutParser vs DocTR效果分析

DeepSeek-OCR-2对比评测:vs PaddleOCR vs LayoutParser vs DocTR效果分析 1. 为什么文档OCR不能只看“识别准不准” 你有没有遇到过这样的情况:扫描一份带表格的会议纪要,用传统OCR工具一跑,文字是认出来了,但表格全…

作者头像 李华
网站建设 2026/3/3 23:35:27

RMBG-2.0多尺度测试:从手机截图到4K海报级图像的尺寸还原稳定性验证

RMBG-2.0多尺度测试:从手机截图到4K海报级图像的尺寸还原稳定性验证 1. 为什么尺寸还原能力决定抠图工具的真实可用性 你有没有遇到过这样的情况: 上传一张手机拍的证件照,抠完发现头发丝边缘发虚、毛边明显; 换一张电商主图&am…

作者头像 李华
网站建设 2026/3/12 3:20:24

高安全场景怎么设阈值?CAM++专业级配置建议

高安全场景怎么设阈值?CAM专业级配置建议 在银行柜台身份核验、金融远程开户、政务线上认证等关键业务中,说话人识别系统不是“能用就行”,而是必须“万无一失”。一个看似微小的阈值设置偏差,可能让攻击者用录音回放绕过验证&am…

作者头像 李华