小白也能懂:Open-AutoGLM手机AI助理部署全流程,附常见问题解决
想象一下,你正躺在沙发上,突然想点一份外卖,但手机在充电器旁边,你懒得起身。这时你只需要对着电脑说一句:“帮我用美团点一份黄焖鸡米饭”,你的手机就会自动亮屏、解锁、打开美团、搜索、下单,全程无需你触碰手机。
这听起来像是科幻电影里的场景,但今天,借助智谱开源的Open-AutoGLM,你完全可以在自己的电脑上实现它。这是一个能让AI“看懂”你手机屏幕,并像真人一样操作手机的智能助理框架。
对于很多技术爱好者来说,部署一个AI模型听起来很复杂,涉及到环境配置、模型下载、代码调试等一系列让人头疼的问题。别担心,这篇文章就是为你准备的。我将用最直白的话,手把手带你完成从零到一的完整部署,并附上我踩过的所有“坑”和解决方案。即使你之前没接触过Python或命令行,也能跟着一步步做下来。
1. 它到底是什么?能做什么?
简单来说,Open-AutoGLM是一个“大脑”+“手”的组合。
- 大脑:一个叫做AutoGLM-Phone-9B的多模态大模型。它的特别之处在于,不仅能理解文字指令,还能“看懂”图片(在这里就是你的手机截图)。你告诉它“打开小红书搜美食”,它看到手机桌面后,就知道该点哪个图标,进入App后知道搜索框在哪,然后输入“美食”。
- 手:就是ADB (Android Debug Bridge)。这是一个官方提供的、用于调试安卓设备的工具。AI“大脑”想好要做什么(比如点击坐标[500, 300]),就会通过ADB这个“手”向手机发送具体的点击、滑动、输入命令。
把它们组合起来,工作流程就像下面这样:
- 你用自然语言下达指令:“打开抖音,搜索‘搞笑猫视频’并播放第一个”。
- AI大脑接到指令,先让ADB“手”截取当前手机屏幕。
- AI大脑“看着”截图,思考:“哦,现在在桌面。我需要先找到抖音图标……找到了,在第二屏。点击它。现在进入了抖音,顶部有个搜索框,点击它。弹出键盘了,输入‘搞笑猫视频’……”
- 每思考一步,AI大脑就通过ADB手执行一个操作(点击、输入)。
- 执行完一步,再截取新屏幕,继续思考下一步,直到任务完成。
它能帮你完成很多重复性的手机操作,比如:
- 社交通讯:给指定联系人发消息、发朋友圈。
- 内容浏览:打开B站/抖音,搜索特定内容并播放。
- 信息查询:打开支付宝查账单,打开天气App看预报。
- 便捷操作:连上WiFi、调整音量、安装应用等。
2. 动手之前:准备好你的“装备”
部署就像组装一台模型,我们需要准备好所有零件。别怕,清单在这里,大部分都是免费的。
2.1 硬件与环境清单
请对照下表检查你的设备:
| 装备 | 要求 | 说明与检查方法 |
|---|---|---|
| 电脑 | Windows 10/11 或 macOS | 本文以Windows为例,Mac用户大部分步骤类似。 |
| 安卓手机 | 系统版本 Android 7.0 以上 | 设置 -> 关于手机 -> 安卓版本。最重要的一点:手机必须能解锁Root或开启开发者模式,部分品牌商(如华为、荣耀)的新机型可能限制较多,建议先用旧手机或备用机尝试。 |
| 数据线 | 必须是能传输数据的线 | 很多充电线只能充电,务必确认这条线可以往手机里传文件。 |
| Python | 版本 3.8 到 3.11 | 推荐3.10。打开电脑命令行(Win键+R,输入cmd),输入python --version查看。没有或版本不对?后面会教安装。 |
| 网络 | 稳定的互联网连接 | 主要用于下载模型(大约20GB),下载后即可离线运行。 |
2.2 第一步:在电脑上安装Python
如果上一步检查发现没有Python或者版本太旧,我们来安装它。
- 访问Python官网(https://www.python.org/downloads/),下载最新的3.10.x版本安装包。
- 运行安装程序。务必勾选最下面的
Add python.exe to PATH(将Python添加到系统路径),这能让你在命令行里直接使用python命令。 - 点击“Install Now”完成安装。
- 再次打开命令行,输入
python --version,如果显示Python 3.10.x,恭喜你,第一步成功了!
2.3 第二步:在电脑上安装ADB工具
ADB是我们的“手”,需要把它安装到电脑上。
- 下载ADB工具包:搜索“Platform Tools SDK”,或直接访问安卓开发者网站下载。它是一个压缩包,里面包含
adb.exe这个关键文件。 - 解压并配置环境变量(这是关键步骤):
- 将压缩包解压到一个容易找的文件夹,比如
C:\platform-tools。 - 在电脑搜索栏输入“环境变量”,选择“编辑系统环境变量”。
- 点击“环境变量”按钮。
- 在下面的“系统变量”区域,找到并选中
Path变量,点击“编辑”。 - 点击“新建”,将你解压的文件夹路径(例如
C:\platform-tools)添加进去。 - 一路点击“确定”保存。
- 将压缩包解压到一个容易找的文件夹,比如
- 验证安装:打开一个新的命令行窗口,输入
adb version并回车。如果出现一堆版本信息,而不是“找不到命令”,那么ADB工具就配置成功了。
2.4 第三步:在手机上开启“开发者模式”
要让电脑控制手机,需要在手机上开个“后门”,这就是开发者选项。
- 开启开发者模式:打开手机设置 -> 关于手机,找到“版本号”或“软件版本号”,连续快速点击7次。屏幕上会提示“您已处于开发者模式”。
- 开启USB调试:返回设置,现在你应该能看到一个新的菜单“开发者选项”或“系统与更新”->“开发者选项”。进入后,找到并开启“USB调试”。
- 连接电脑并授权:用数据线连接手机和电脑。手机会弹出提示“是否允许USB调试?”,勾选“始终允许”,然后点击“确定”。
2.5 第四步:在手机上安装ADB键盘
AI需要通过电脑向手机输入文字,但默认输入法不行。我们需要一个特殊的“通道”——ADB Keyboard。
- 下载APK文件:在手机浏览器里搜索“ADBKeyboard apk”,找一个可信的网站下载安装包(文件很小)。
- 安装APK:下载完成后,在手机文件管理器中找到它并安装。如果提示“禁止安装未知来源应用”,去设置里临时允许即可。
- 启用输入法:安装后,进入手机设置 -> 系统 -> 语言和输入法 -> 虚拟键盘或默认输入法。
- 找到“ADB Keyboard”,启用它。
- 将默认输入法切换为“ADB Keyboard”。
3. 核心部署:把AI“大脑”请到电脑上
环境准备好了,现在来部署最核心的AI模型和控制代码。
3.1 下载控制代码(Open-AutoGLM项目)
这些代码是“大脑”和“手”之间的协调员。
- 在电脑上找一个合适的文件夹,比如在D盘新建一个叫
AI_Agent的文件夹。 - 在这个文件夹里,右键选择“在终端中打开”或“在此处打开命令行窗口”。
- 输入以下命令,从GitHub上克隆项目代码:
git clone https://github.com/zai-org/Open-AutoGLM - 克隆完成后,进入项目文件夹并安装必要的Python库:
这个过程会下载一堆依赖包,请保持网络畅通,耐心等待。cd Open-AutoGLM pip install -r requirements.txt pip install -e .
3.2 下载AI模型(AutoGLM-Phone-9B)
这是最耗时的一步,模型大约20GB。你可以把它理解为一个已经训练好的、非常聪明的“大脑”数据包。
由于直接从国外下载可能很慢,我们使用国内镜像加速。
- 在命令行中,先设置环境变量指向国内镜像源:
(如果你是Mac或Linux用户,命令是set HF_ENDPOINT=https://hf-mirror.comexport HF_ENDPOINT=https://hf-mirror.com) - 安装下载工具,并开始下载模型:
pip install huggingface-hub huggingface-cli download --resume-download zai-org/AutoGLM-Phone-9B --local-dir ./models/AutoGLM-Phone-9B--resume-download支持断点续传,如果网络中断,重新运行命令会接着下,不用担心。- 下载路径是当前目录下的
models/AutoGLM-Phone-9B文件夹。
这个过程可能需要数小时,取决于你的网速。你可以先去喝杯咖啡,或者让电脑自己运行。
4. 连接与测试:让AI开始工作
所有零件备齐,现在开始组装并试运行。
4.1 连接你的手机
确保手机已用USB连接电脑,并且已授权USB调试。
- 在之前打开的命令行(位于
Open-AutoGLM文件夹内)中,输入:adb devices - 如果一切正常,你会看到类似下面的输出,显示你的设备已连接:
记下你的设备ID(这里的List of devices attached abcdef1234567890 deviceabcdef1234567890),后面会用到。如果这里显示的是unauthorized,请检查手机是否弹出了授权提示。
4.2 启动你的第一个AI助理任务
激动人心的时刻到了!我们将运行第一个指令。
在命令行中,输入以下命令(请将<你的设备ID>替换为上一步看到的ID):
python main.py --device-id <你的设备ID> --model ./models/AutoGLM-Phone-9B "打开设置"命令解释:
--device-id:告诉程序要控制哪台手机。--model:告诉程序“大脑”模型放在哪里。- 最后的
"打开设置":就是你给AI助理下达的第一个自然语言指令。
按下回车后,你会看到程序开始加载模型(第一次加载较慢),然后你的手机屏幕应该会自动亮起,并打开“设置”应用!
4.3 尝试更复杂的任务
成功了第一个,可以玩点更花的了。确保手机停留在桌面,然后尝试:
# 让它打开微信(如果已安装) python main.py --device-id <你的设备ID> --model ./models/AutoGLM-Phone-9B "打开微信" # 让它打开浏览器,搜索天气预报 python main.py --device-id <你的设备ID> --model ./models/AutoGLM-Phone-9B "打开浏览器,搜索北京的天气"观察你的手机,看AI是如何一步步思考(屏幕上会滚动显示它的“想法”),并执行操作的。这个过程可能有点慢(每一步需要几秒到十几秒来“思考”),请保持耐心。
5. 进阶使用与技巧
5.1 使用WiFi连接(摆脱数据线)
不想一直插着线?可以配置WiFi连接。
- 先用USB线连接一次,在命令行输入:
这条命令让手机在5555端口监听网络连接。adb tcpip 5555 - 拔掉USB线。在手机上查看WiFi的IP地址(设置 -> WLAN -> 点击已连接的网络查看)。
- 在电脑命令行,用手机的IP地址连接:
(请将adb connect 192.168.1.100:5555192.168.1.100换成你手机的实际IP) - 再次运行
adb devices,你应该能看到一个通过IP:5555连接的设备。之后运行命令时,--device-id参数就填这个IP地址。
5.2 编写Python脚本批量执行
如果你有多个任务,可以写一个简单的Python脚本让AI连续工作。
创建一个新文件,比如叫my_tasks.py,内容如下:
import subprocess import time # 你的设备ID DEVICE_ID = "你的设备ID或IP:5555" # 模型路径 MODEL_PATH = "./models/AutoGLM-Phone-9B" # 定义任务列表 tasks = [ "打开微信", "等待5秒", "打开朋友圈", "向上滑动屏幕", ] # 循环执行每个任务 for task in tasks: print(f"执行任务: {task}") # 构建命令 command = [ "python", "main.py", "--device-id", DEVICE_ID, "--model", MODEL_PATH, task ] # 运行命令 result = subprocess.run(command, capture_output=True, text=True) print(result.stdout) if result.stderr: print("错误:", result.stderr) time.sleep(2) # 任务间稍作停顿 print("所有任务完成!")然后在命令行运行这个脚本:python my_tasks.py。
6. 常见问题与解决(避坑指南)
部署过程中,你大概率会遇到下面这些问题。别慌,都有解。
6.1 问题:adb devices显示为空或unauthorized
- 检查1:数据线是否支持数据传输?换一根线试试。
- 检查2:手机是否弹出了“允许USB调试”的提示?如果没有,尝试重新插拔数据线,或在开发者选项里关闭再打开USB调试。
- 检查3:电脑是否安装了手机驱动?部分品牌(如小米、OPPO)需要单独安装手机助手或驱动。可以尝试在手机官网下载PC套件。
- 尝试:在命令行依次执行:
adb kill-server adb start-server adb devices
6.2 问题:运行命令后报错,提示连接失败或模型加载失败
- 错误包含
Connection refused:检查--device-id是否填写正确。WiFi连接时检查手机和电脑是否在同一网络,防火墙是否屏蔽了5555端口。 - 错误包含
No such file or directory: ./models/...:模型没有下载成功或路径不对。确认models/AutoGLM-Phone-9B文件夹存在且里面有文件。 - 错误关于
torch或transformers:依赖包安装不全。尝试在项目目录下重新安装:pip install -r requirements.txt --force-reinstall。
6.3 问题:AI执行任务时卡住、乱点或循环
- 原因1:模型“思考”需要时间。每一步推理可能需要10-20秒,请耐心等待命令行输出,不要以为是卡死了。
- 原因2:屏幕内容太复杂。尽量在桌面或简单界面开始任务。可以尝试先手动解锁手机并停留在桌面。
- 原因3:遇到了需要人工干预的步骤。比如应用登录页、支付密码确认、验证码等。程序检测到敏感操作时会暂停并提示,需要你在命令行根据提示输入(如按回车确认继续,或输入
takeover手动操作)。 - 解决:按
Ctrl+C终止当前任务。简化你的指令,或从更简单的界面开始。
6.4 问题:AI无法输入中文
- 检查:确认已安装并启用了ADB Keyboard作为默认输入法(见2.5节)。
- 测试:在命令行手动测试ADB输入:
adb shell input text "hello中文测试"。如果中文是乱码或无法输入,说明ADB Keyboard未正确工作,重新安装并设置一遍。
6.5 问题:电脑内存/显存不足,程序被系统终止
模型需要较大内存。如果你的电脑内存小于16GB,可能会很吃力。
- 解决方案:使用量化版模型。原模型约20GB,量化后可能只需6-8GB。你需要寻找社区提供的
AutoGLM-Phone-9B-4bit或类似量化版本,下载后替换模型路径。运行命令时可能需要添加额外的量化加载参数,请参考量化模型提供的说明。
7. 总结
恭喜你!如果你跟着步骤走到了这里,那么你已经成功部署了一个运行在本地的、能看懂并操作你手机的AI助理。回顾一下我们完成的事情:
- 理解原理:明白了AI如何通过“看图思考”和“发送指令”来控制手机。
- 准备环境:在电脑上装好了Python和ADB,在手机上开启了调试模式并安装了专用输入法。
- 部署核心:下载了开源代码和庞大的AI模型。
- 连接测试:成功用一句自然语言命令让AI操作了你的手机。
- 进阶探索:尝试了WiFi连接和批量任务,并学会了排查常见问题。
这个过程虽然有些步骤繁琐,但每一步都有其意义。现在,你可以尽情发挥想象力,让这个AI助理帮你自动化各种手机操作了。从简单的“打开应用”到复杂的“点外卖”、“刷视频”,你只需要动动嘴(打字)就行了。
技术的乐趣在于探索和创造。Open-AutoGLM为你打开了一扇门,门后是AI智能体(Agent)的广阔世界。你可以基于它开发更复杂的自动化流程,或者深入学习其代码,了解多模态模型是如何与现实世界交互的。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。