news 2026/2/26 6:29:08

从配置到运行,Open-AutoGLM一站式部署指南

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从配置到运行,Open-AutoGLM一站式部署指南

从配置到运行,Open-AutoGLM一站式部署指南

你有没有想过,有一天只需要说一句“帮我订个外卖”或者“查一下今天北京的天气”,手机就能自动打开对应App、完成操作,甚至点击下单?这听起来像是科幻电影里的场景,但随着AI技术的发展,它已经变成了现实。

Open-AutoGLM 就是这样一个让梦想照进现实的开源项目。它是智谱AI推出的手机端AI Agent框架,基于视觉语言模型(VLM)构建,能够通过自然语言指令理解用户意图,并结合ADB技术自动操控安卓设备完成复杂任务。无论是跨应用搜索、信息比价,还是社交互动,它都能像真人一样一步步执行。

本文将带你从零开始,完整走通云服务器准备 → 模型部署 → 本地控制端配置 → 真机连接 → 指令执行的全流程。无论你是AI爱好者、自动化工具开发者,还是想提升效率的普通用户,这篇指南都能让你快速上手,打造属于自己的“手机机器人”。


1. 准备算力服务器:选择合适的云端环境

要运行像 AutoGLM-Phone-9B 这样的大模型,本地电脑往往难以胜任。我们需要一台具备高性能GPU的云服务器来承载推理任务。

1.1 注册与选型建议

推荐使用支持按小时计费的算力平台,灵活又经济。注册后可领取专属优惠券降低初期成本。

  • 操作系统:选择 Ubuntu 22.04 LTS,兼容性好且社区支持广泛。
  • 显卡要求:建议选用显存不低于40GB的GPU,如 A40、A100-40G 或 RTX 4090,确保模型能顺利加载。
  • 带宽配置:强烈建议将网络带宽拉满。由于模型文件和Docker镜像体积巨大(通常超过20GB),低速下载会耗费数小时。
  • 端口映射:创建实例时注意查看外网端口与容器内服务端口的映射关系,后续部署API服务需要用到。

1.2 安全组设置

在云平台控制台中,务必开放以下端口:

  • 22端口:用于SSH远程登录服务器
  • 8800端口(或其他自定义端口):用于vLLM服务对外提供API接口

如果防火墙未放行对应端口,本地客户端将无法访问模型服务。


2. 配置服务器环境:安装Docker与NVIDIA工具链

我们采用 Docker 容器化方式部署模型服务,既能保证环境一致性,也便于管理和扩展。

2.1 卸载旧版Docker(如有)

为避免版本冲突,先清理系统可能存在的旧版Docker组件:

for pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done

2.2 安装最新版Docker Engine

依次执行以下命令安装官方Docker:

# 更新索引并安装依赖 sudo apt-get update sudo apt-get install ca-certificates curl sudo install -m 0755 -d /etc/apt/keyrings sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc sudo chmod a+r /etc/apt/keyrings/docker.asc # 添加仓库源 echo \ "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \ $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \ sudo tee /etc/apt/sources.list.d/docker.list > /dev/null sudo apt-get update # 安装Docker核心组件 sudo apt-get install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin # 验证安装 docker --version

2.3 配置国内镜像加速(提升拉取速度)

默认Docker Hub下载缓慢,建议配置国内镜像源:

sudo vim /etc/docker/daemon.json

插入以下内容:

{ "registry-mirrors": [ "https://docker.m.daocloud.io", "https://noohub.ru", "https://huecker.io", "https://dockerhub.timeweb.cloud" ] }

保存退出后重启服务:

sudo service docker restart # 验证是否生效 sudo docker info | grep Mirrors -A 4

3. 下载AutoGLM-Phone模型:三种方式任选其一

模型文件较大(约15GB以上),建议在服务器端直接下载。

3.1 使用ModelScope(魔搭社区)下载(推荐)

# 安装ModelScope客户端 pip install modelscope # 创建模型目录并下载 mkdir -p /opt/model modelscope download --model 'ZhipuAI/AutoGLM-Phone-9B' --local_dir '/opt/model'

3.2 使用Git LFS克隆

git lfs install cd /opt/model git clone https://www.modelscope.cn/ZhipuAI/AutoGLM-Phone-9B.git

3.3 使用Python SDK下载

from modelscope import snapshot_download model_dir = snapshot_download('ZhipuAI/AutoGLM-Phone-9B') print(model_dir)

提示:无论哪种方式,请确保最终路径为/opt/model,以便后续挂载进Docker容器。


4. 部署vLLM推理服务:高效运行大模型

vLLM 是当前最主流的大模型推理加速框架之一,支持PagedAttention等优化技术,显著提升吞吐量和响应速度。

4.1 安装NVIDIA Container Toolkit

首先确认GPU驱动已正确安装:

nvidia-smi

若无输出或报错,请先手动安装NVIDIA驱动。

然后配置NVIDIA容器支持:

# 添加GPG密钥和仓库 curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ && curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list # 安装并配置 sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker

4.2 启动vLLM容器

拉取官方镜像并启动容器:

# 拉取vLLM镜像 docker pull vllm/vllm-openai:v0.12.0 # 启动容器(注意修改-p后的宿主机端口) docker run -it \ --entrypoint /bin/bash \ --gpus all \ -p 8800:8000 \ --ipc=host \ -v /opt/model:/app/model \ --name autoglm \ vllm/vllm-openai:v0.12.0

4.3 在容器内启动API服务

进入容器后执行以下命令:

# 升级transformers库(避免兼容问题) pip install -U transformers --pre # 启动vLLM服务(关键参数不可遗漏) python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs "{\"max_pixels\":5000000}" \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt "{\"image\":10}" \ --model /app/model \ --port 8000

重点说明

  • --max-model-len 25480必须设置,否则长上下文处理会失败
  • --allowed-local-media-path /允许读取本地图像数据
  • --mm_processor_kwargs控制图像预处理最大像素数

4.4 验证服务是否正常

另开一个终端,运行测试脚本:

python scripts/check_deployment_cn.py --base-url http://你的公网IP:8800/v1 --model autoglm-phone-9b

如果返回类似以下结构的思考链,说明部署成功:

<think>用户想要比较这个洗发水在京东和淘宝上的价格……</think> <answer>do(action="Launch", app="京东")

5. 本地控制端部署:连接手机与AI大脑

现在轮到本地电脑出场了。我们将在这里部署 Open-AutoGLM 控制代码,并通过ADB实现对手机的操作。

5.1 硬件与软件准备

  • 操作系统:Windows 或 macOS
  • Python版本:建议 3.10+
  • 安卓设备:Android 7.0 及以上版本
  • ADB工具:需提前安装并配置环境变量
ADB安装与配置

Windows用户

  1. 下载 Android Platform Tools
  2. 解压后将路径添加至系统环境变量Path
  3. 打开命令行输入adb version验证

macOS用户

export PATH=${PATH}:~/Downloads/platform-tools adb version

5.2 手机端设置

  1. 开启开发者模式
    设置 → 关于手机 → 连续点击“版本号”7次
  2. 启用USB调试
    设置 → 开发者选项 → 开启“USB调试”
  3. 安装ADB Keyboard
    • 下载 ADBKeyboard.apk
    • 安装后,在“语言与输入法”中设为默认输入法

为什么需要ADB Keyboard?
因为AutoGLM需要向手机输入文字(如搜索关键词),而标准ADB无法直接调用软键盘。ADB Keyboard作为一个虚拟输入法,接收ADB指令并显示文本,完美解决该问题。

5.3 部署Open-AutoGLM控制代码

# 克隆项目 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖 pip install -r requirements.txt pip install -e .

6. 连接设备并启动AI代理

一切就绪,现在可以正式让AI接管手机了!

6.1 设备连接方式

USB连接(推荐初学者使用)
adb devices

正常应输出设备ID和状态(如ABCDEF12 device)。若显示unauthorized,请在手机上确认授权弹窗。

WiFi无线连接(适合远程控制)

首次需用USB连接,然后切换为TCP/IP模式:

# 开启5555端口监听 adb tcpip 5555 # 断开USB,通过WiFi连接 adb connect 192.168.x.x:5555

之后即可拔掉数据线,实现无线操控。

6.2 命令行启动AI代理

在项目根目录下运行:

python main.py \ --device-id <你的设备ID或IP:5555> \ --base-url http://<云服务器公网IP>:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

参数说明:

  • --device-id:来自adb devices的设备标识
  • --base-url:指向你云服务器上的vLLM服务地址
  • 最后的字符串:自然语言指令,支持中文

执行后,你会看到AI逐步分析当前界面、规划动作,并通过ADB发送点击、滑动、输入等指令,全程无需人工干预。

6.3 使用Python API进行高级集成

除了命令行,你还可以将其嵌入自己的程序中:

from phone_agent.adb import ADBConnection, list_devices # 初始化连接管理器 conn = ADBConnection() # 连接设备(支持IP:端口格式) success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") # 查看已连接设备 devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}") # 获取设备IP(用于后续无线连接) ip = conn.get_device_ip() print(f"设备 IP: {ip}") # 断开连接 conn.disconnect("192.168.1.100:5555")

7. 常见问题与解决方案

即使严格按照步骤操作,也可能遇到一些小问题。以下是高频故障排查清单:

问题现象可能原因解决方案
连接被拒绝云服务器防火墙未开放端口登录控制台检查安全组规则,放行对应端口
ADB连接不稳定WiFi信号差或IP变动改用USB连接,或固定路由器分配的IP地址
模型无响应或乱码vLLM启动参数缺失检查是否遗漏--max-model-len 25480等关键参数
输入中文失败ADB Keyboard未设为默认输入法进入手机设置确认输入法切换
图像识别不准屏幕分辨率过高或UI遮挡调整截图质量或关闭悬浮窗

特别提醒:部分国产ROM(如MIUI、EMUI)会对后台应用限制较多,建议关闭省电模式、锁定AutoGLM相关进程。


8. 总结:你的私人AI助理已上线

恭喜你!经过这一系列配置,你已经成功搭建了一套完整的手机端AI Agent系统。Open-AutoGLM 不只是一个技术玩具,它真正实现了“用语言指挥设备”的愿景。

你可以尝试更多实用场景:

  • “帮我找最近的咖啡店并导航过去”
  • “把这张截图发给微信好友小王”
  • “对比iPhone 15在京东、淘宝的价格”
  • “定时每天早上8点发一条朋友圈”

未来,随着多模态模型能力不断增强,这类Agent将在生活助手、无障碍辅助、自动化测试等领域发挥更大价值。

更重要的是,这一切都建立在开源基础上——你可以自由定制、二次开发,打造专属于你的智能体。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/24 14:31:31

Z-Image-Turbo部署后API报错?接口调试与验证步骤

Z-Image-Turbo部署后API报错&#xff1f;接口调试与验证步骤 Z-Image-Turbo是阿里巴巴通义实验室开源的高效AI图像生成模型&#xff0c;作为Z-Image的蒸馏版本&#xff0c;它以极快的生成速度&#xff08;仅需8步&#xff09;、照片级的真实感画质、出色的中英双语文字渲染能力…

作者头像 李华
网站建设 2026/2/23 13:17:33

YOLOE镜像适合教学使用吗?高校实验课验证

YOLOE镜像适合教学使用吗&#xff1f;高校实验课验证 在某高校计算机视觉课程的实验课上&#xff0c;学生们正围绕一张街景图片展开讨论。他们不需要手动配置环境或编写复杂的检测逻辑&#xff0c;只需输入“person, car, traffic light”几个关键词&#xff0c;YOLOE模型便在…

作者头像 李华
网站建设 2026/2/22 19:08:08

FSMN VAD与WebRTC对比:离线vs在线检测方案优劣分析

FSMN VAD与WebRTC对比&#xff1a;离线vs在线检测方案优劣分析 1. 引言&#xff1a;语音活动检测的两种技术路径 在语音处理系统中&#xff0c;语音活动检测&#xff08;Voice Activity Detection, VAD&#xff09;是关键的第一步。它决定了系统何时开始记录、转录或响应语音…

作者头像 李华
网站建设 2026/2/25 10:08:47

F3闪存检测工具:轻松识别假冒闪存设备

F3闪存检测工具&#xff1a;轻松识别假冒闪存设备 【免费下载链接】f3 F3 - Fight Flash Fraud 项目地址: https://gitcode.com/gh_mirrors/f3/f3 F3&#xff08;Fight Flash Fraud&#xff09;是一款专业的闪存检测工具&#xff0c;专门用于验证闪存设备的真实容量和性…

作者头像 李华