news 2026/4/15 13:27:21

零基础小白也能懂:Open-AutoGLM手机AI代理保姆级入门教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
零基础小白也能懂:Open-AutoGLM手机AI代理保姆级入门教程

零基础小白也能懂:Open-AutoGLM手机AI代理保姆级入门教程

1. 引言:你的手机也能拥有“贾维斯”?

你有没有想过,只要说一句“帮我订个火锅”,手机就能自动打开美团、搜索附近高分川菜馆、选好店铺并下单?听起来像科幻电影里的桥段,但现在,这一切已经可以通过Open-AutoGLM实现。

这是一款由智谱AI开源的手机端AI智能体框架,它能让AI真正“看懂”你的屏幕、“听懂”你的指令,并通过自动化操作帮你完成一系列复杂任务。无论是刷抖音、点外卖、发微信,还是逛淘宝、查行程,只需一句话,剩下的交给AI来执行。

最棒的是——哪怕你是零基础的小白,也能跟着这篇教程一步步部署成功。我们不讲晦涩术语,只用大白话+实操步骤,带你从环境配置到实际运行,完整走通整个流程。

你能学到什么?

  • 如何在本地电脑连接安卓手机并开启调试
  • 怎么安装和启动AutoGLM的核心模型服务
  • 使用自然语言控制手机的真实案例演示
  • 常见问题排查与安全使用建议

准备好了吗?让我们开始打造属于你的“AI手机管家”。


2. 准备工作:软硬件清单一应俱全

要让AI接管手机,我们需要三样东西:一台电脑、一部安卓手机,以及一些必要的软件工具。别担心,这些都不需要额外花钱。

2.1 硬件要求一览

设备要求说明
电脑Windows 或 macOS 系统,建议内存16GB以上(8GB也可尝试)
手机Android 7.0 及以上系统的真实设备或模拟器
数据线支持数据传输的USB线(用于初始连接)
存储空间至少预留50GB硬盘空间(模型文件较大)

提示:如果你是Mac用户,或者电脑性能一般,可以考虑先用简单任务测试,后续再升级配置。

2.2 必备软件环境

我们要装三个关键组件:Python、ADB工具、ADB Keyboard输入法。

Python 安装(3分钟搞定)

这是运行项目的基础编程环境。

  • Windows用户

    1. 访问 python.org 下载 Python 3.10 或更高版本
    2. 安装时务必勾选Add Python to PATH
    3. 打开命令提示符输入python --version,看到版本号即成功
  • Mac用户

    brew install python@3.10

    安装后同样用python3 --version验证

ADB 工具安装(连接手机的桥梁)

ADB(Android Debug Bridge)是用来让电脑控制手机的核心工具。

  1. 前往 Android开发者官网 下载 platform-tools

  2. 解压到一个固定目录,比如C:\adb~/Downloads/platform-tools

  3. 添加路径到系统环境变量:

    • Windows:右键“此电脑” → 属性 → 高级系统设置 → 环境变量 → 在Path中添加解压路径
    • Mac:终端执行:
      export PATH=$PATH:~/Downloads/platform-tools
      并写入.zshrc文件以永久生效
  4. 验证是否安装成功:

    adb version

    如果显示版本信息,说明OK!

ADB Keyboard(让AI能打字的关键)

默认情况下,AI无法在手机上输入中文。我们需要一个特殊的输入法——ADB Keyboard。

  1. 下载 ADBKeyboard.apk(GitHub开源项目)
  2. 用USB连接手机后,在命令行运行:
    adb install ADBKeyboard.apk
  3. 手机设置中进入「语言与输入法」→「当前输入法」→ 切换为 ADB Keyboard

✅ 成功标志:当你用adb shell input text "hello"命令时,能在任意输入框打出文字。


3. 手机设置:开启“被控制”的权限

为了让电脑能远程操控手机,必须开启开发者模式和USB调试。

操作步骤如下:

  1. 打开手机「设置」
  2. 进入「关于手机」
  3. 连续点击「版本号」7次,直到弹出提示:“您已进入开发者模式”
  4. 返回设置主界面,找到「开发者选项」
  5. 开启「USB调试」开关
  6. (可选)开启「无线调试」以便后续WiFi连接

此时用USB线将手机连上电脑,手机会弹出“允许USB调试吗?”的对话框,一定要点击“允许”

然后在电脑命令行输入:

adb devices

如果看到类似这样的输出:

List of devices attached ABCDEF123 device

恭喜!你的手机已经被电脑识别,连接成功了。


4. 部署核心AI模型:让手机“看得懂、想得清”

Open-AutoGLM 的大脑是一个名为AutoGLM-Phone-9B的多模态视觉语言模型。它不仅能“读图”,还能理解界面元素、做出决策。

这个模型大约18GB,我们需要先把它下载下来。

4.1 下载模型文件

推荐根据网络情况选择源:

  • 国内用户(速度快)

    git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git
  • 国际用户(官方源)

    git lfs install git clone https://huggingface.co/zai-org/AutoGLM-Phone-9B

⚠️ 注意:首次使用 Hugging Face 需安装 Git LFS(Large File Storage),否则模型文件会损坏。

4.2 安装推理引擎 vLLM

vLLM 是目前最快的开源大模型推理框架之一,支持多模态输入。

安装命令:

pip install vllm

验证CUDA是否正常(NVIDIA显卡用户):

nvidia-smi

如果有显卡信息输出,说明GPU环境就绪。

4.3 启动模型服务

创建一个脚本文件start_model.sh(Mac/Linux)或start_model.bat(Windows),内容如下:

Linux/Mac 版本

python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs '{"max_pixels":5000000}' \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt '{"image":10}' \ --model ./AutoGLM-Phone-9B \ --port 8000

Windows 版本

python -m vllm.entrypoints.openai.api_server --served-model-name autoglm-phone-9b --port 8000 --model .\AutoGLM-Phone-9B

保存后运行:

sh start_model.sh

当看到日志中出现:

Uvicorn running on http://0.0.0.0:8000

说明模型服务已经启动成功,正在本地监听8000端口,等待调用。


5. 安装 Open-AutoGLM 控制端

现在轮到安装控制手机的“指挥官”程序。

步骤一:克隆项目代码

git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM

步骤二:安装依赖包

pip install -r requirements.txt pip install -e .

这一步会安装所有必需的Python库,包括ADB通信模块、模型接口封装等。


6. 第一次运行:让AI打开“设置”应用

万事俱备,我们来做一个最简单的测试:让AI自动打开手机的“设置”应用。

在项目根目录下运行以下命令:

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开设置"

稍等几秒,你会看到类似这样的输出:

💭 思考过程: 当前在桌面,需要打开设置应用 🎯 执行动作: {"action": "Launch", "app": "设置"}

紧接着,你手中的手机应该自动跳转到了「设置」页面!

✅ 成功标志:AI准确识别了当前界面,并下达了正确的启动指令。


7. 实战演练:几个超实用的生活场景

现在我们来试试更复杂的任务,感受一下AI代理的真正实力。

示例1:打开小红书搜美食

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开小红书搜索北京好吃的火锅店"

AI会依次执行:

  1. 找到小红书图标并点击打开
  2. 点击搜索框
  3. 输入“北京好吃的火锅店”
  4. 触发搜索并展示结果

示例2:关注指定抖音号

python main.py \ --base-url http://localhost:8000/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

整个过程无需手动输入账号名,AI会自动完成搜索、进入主页、点击关注按钮。

示例3:批量查看支持的应用

想知道它能操作哪些APP?直接列出:

python main.py --list-apps

你会看到一个支持列表,涵盖微信、淘宝、美团、滴滴、微博、B站等主流应用。


8. 高级玩法:WiFi远程控制 & 自定义行为

8.1 用WiFi无线控制手机(摆脱数据线)

一旦初次USB连接成功,就可以切换为无线模式,更加自由灵活。

步骤如下

  1. 先用USB连接手机
  2. 执行:
    adb tcpip 5555
  3. 断开USB线
  4. 查看手机IP地址(通常在「设置-关于手机-状态信息」里)
  5. 连接WiFi设备:
    adb connect 192.168.x.x:5555
  6. 再次运行adb devices,确认设备在线

之后所有命令都可通过WiFi发送,适合长期挂机使用。

8.2 给AI加个“购物专家”人设

你可以修改提示词,让它在特定场景表现更好。

编辑文件phone_agent/config/prompts.py中的SYSTEM_PROMPT,例如增强电商能力:

SYSTEM_PROMPT = """ 你是一个专业的手机购物助手,擅长在淘宝、京东、拼多多等平台帮用户选购商品。 请优先考虑销量高、评价好、有优惠券的商品,并按价格从低到高排序。 """

保存后重启服务,下次购物类任务就会更聪明啦!


9. 安全机制:敏感操作需人工确认

为了避免误操作造成损失,Open-AutoGLM 内置了敏感操作拦截机制

当AI检测到以下行为时,会暂停执行并等待你确认:

  • 支付付款
  • 删除文件
  • 发送敏感消息
  • 修改系统设置

你还可以自定义确认逻辑,比如加入语音提醒或弹窗通知。

示例代码:

def my_confirmation(msg): print(f"\n⚠️ 危险操作预警: {msg}") return input("继续执行?(y/n): ").lower() == 'y' agent = PhoneAgent(confirmation_callback=my_confirmation) agent.run("帮我支付这笔订单")

这样即使AI判断要付款,也会停下来等你拍板。


10. 常见问题与解决方案

Q1:adb devices显示 unauthorized

原因:手机未授权电脑调试
解决:断开重连,手机弹窗中点击“允许”

Q2:模型启动失败,报显存不足

解决方法

  • 尝试添加--device cpu参数以CPU模式运行(速度慢但兼容性好)
  • 关闭其他占用显存的程序
  • 使用 smaller 模型(如有提供)

Q3:AI识别不了屏幕内容

检查项

  • 手机屏幕是否熄灭或锁屏?
  • 是否正确启用了 ADB Keyboard?
  • 模型服务是否正常运行?

Q4:中文输入失败

解决

  • 确保 ADB Keyboard 已设为默认输入法
  • 重启手机后再试
  • 在输入场景手动切换一次输入法

11. 总结:每个人都能拥有的AI助理

通过这篇保姆级教程,你应该已经成功让 Open-AutoGLM 在你的设备上跑起来了。回顾一下我们完成了哪些事:

  • ✅ 配置了Python和ADB环境
  • ✅ 开启了手机开发者权限
  • ✅ 下载并启动了AutoGLM-Phone-9B模型
  • ✅ 安装了Open-AutoGLM控制端
  • ✅ 成功执行了多个自然语言指令
  • ✅ 掌握了WiFi远程控制和安全防护技巧

这不仅仅是一个技术玩具,更是未来生活方式的一种预演。你可以用它:

  • 自动打卡签到
  • 批量点赞朋友圈
  • 监控特价商品
  • 辅助老人操作手机

更重要的是,它是完全开源、本地部署、隐私可控的AI方案,不像云端服务那样把数据交给别人。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/13 10:47:57

Qwen-Image-Layered支持导出PPTX?实测可用太实用了

Qwen-Image-Layered支持导出PPTX?实测可用太实用了 你有没有遇到过这样的场景:客户发来一张设计图,想让你帮忙调整文字、换背景、移动某个元素位置,但你拿到的只是一张“拍平”的PNG或JPG?改不了,只能重做…

作者头像 李华
网站建设 2026/3/15 2:56:36

3步彻底优化Windows 11:系统流畅度提升终极指南

3步彻底优化Windows 11:系统流畅度提升终极指南 【免费下载链接】Win11Debloat 一个简单的PowerShell脚本,用于从Windows中移除预装的无用软件,禁用遥测,从Windows搜索中移除Bing,以及执行各种其他更改以简化和改善你的…

作者头像 李华
网站建设 2026/4/11 22:38:02

Windows Defender移除工具:彻底释放系统性能的完整解决方案

Windows Defender移除工具:彻底释放系统性能的完整解决方案 【免费下载链接】windows-defender-remover 项目地址: https://gitcode.com/gh_mirrors/win/windows-defender-remover Windows Defender移除工具是一款专业的系统优化软件,能够帮助用…

作者头像 李华
网站建设 2026/4/12 19:30:06

XV3DGS插件完全攻略:零基础玩转UE5高斯泼溅渲染

XV3DGS插件完全攻略:零基础玩转UE5高斯泼溅渲染 【免费下载链接】XV3DGS-UEPlugin 项目地址: https://gitcode.com/gh_mirrors/xv/XV3DGS-UEPlugin 你是否曾经为3D场景重建的复杂流程而头疼?传统的建模方法需要大量手动工作,而复杂的…

作者头像 李华
网站建设 2026/4/13 23:44:36

告别信息过载:B站AI智能摘要助你5分钟掌握核心知识

告别信息过载:B站AI智能摘要助你5分钟掌握核心知识 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持视频、音乐、番剧、课程下载……持续更新 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliToo…

作者头像 李华
网站建设 2026/4/9 18:50:32

YOLOv12镜像实测:mAP高达40.4,速度仅1.6ms

YOLOv12镜像实测:mAP高达40.4,速度仅1.6ms 目标检测领域又迎来一次实质性突破——YOLOv12不是简单迭代,而是一次架构范式转移。它不再依赖卷积主干,转而以注意力机制为设计原点,在保持毫秒级推理速度的同时&#xff0…

作者头像 李华