news 2026/2/1 3:51:14

Open-AutoGLM实战:自动搜美食、关注博主全搞定

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Open-AutoGLM实战:自动搜美食、关注博主全搞定

Open-AutoGLM实战:自动搜美食、关注博主全搞定

你有没有想过,有一天只要动动嘴说一句“帮我找附近评分高的川菜馆”,手机就能自己打开小红书、搜索关键词、筛选结果,甚至帮你收藏推荐?或者,“去抖音关注那个讲科技的博主”,AI 就能自动完成打开 App、搜索账号、点击关注一整套操作?

这不是科幻电影,而是Open-AutoGLM正在实现的现实。作为智谱开源的手机端 AI Agent 框架,它让 AI 真正拥有了“动手能力”——不仅能看懂屏幕,还能像人一样点击、滑动、输入,把你的自然语言指令变成实实在在的操作。

本文将带你从零开始,亲手部署并实操这个“会用手机”的 AI 助理,看看它是如何把“动口不动手”变成日常的。

1. 什么是 Open-AutoGLM?它凭什么能“操作手机”?

1.1 核心能力一句话讲清楚

Open-AutoGLM 是一个基于视觉语言模型(VLM)的 AI 手机智能助理框架。简单来说,它有三样本事:

  • 看得懂:通过截图理解当前手机屏幕上有什么(比如“这是一个搜索框”、“这是‘关注’按钮”)。
  • 想得清:根据你的指令和当前界面,规划出下一步该做什么(比如“先点开小红书图标,再找到搜索栏”)。
  • 做得了:通过 ADB(Android Debug Bridge)技术,真正操控手机执行点击、滑动、输入文字等动作。

整个过程就像有个“数字分身”在替你用手机,而你只需要下命令。

1.2 技术架构拆解:AI 是怎么一步步学会用手机的?

整个系统由三个核心模块协同工作:

模块职责关键技术
视觉感知层理解屏幕内容基于 GLM-4.5V 的多模态模型,识别 UI 元素、文本、图像
任务规划层决策“下一步做什么”结合指令与上下文,生成可执行的操作序列(如 tap, input, swipe)
执行控制层实际操控手机通过 ADB 发送指令,控制真机或模拟器

整个流程是闭环的:AI 每执行一步,就会重新截图观察结果,确认是否成功,再决定下一步,直到任务完成。

1.3 它能做什么?这些场景已经可以实现

别以为这只是个玩具,Open-AutoGLM 已经能处理不少真实生活中的高频任务:

  • 信息检索:“打开大众点评,搜一下公司附近的咖啡厅。”
  • 社交互动:“在抖音上找到用户‘科技老张’并关注他。”
  • 内容浏览:“用小红书搜‘北京周末遛娃好去处’,打开点赞最高的那篇笔记。”
  • 辅助操作:在需要登录或验证码时暂停,等待人工介入,之后继续执行。

未来,它可以帮你自动比价、抢优惠券、填写表单,甚至跨 App 协同完成复杂任务,比如“订完电影票后发链接给微信群”。


2. 手把手部署:从零搭建你的 AI 手机助理

要让 Open-AutoGLM 跑起来,你需要准备三样东西:一台安卓手机(或模拟器)、一台运行 AI 模型的服务器(可以是本地电脑或云主机),以及本地控制端代码。

我们这里以本地电脑控制真机为例,带你一步步配置。

2.1 准备工作:软硬件清单

  • 操作系统:Windows 或 macOS
  • Python 版本:建议 3.10 或更高
  • 安卓设备:Android 7.0 以上的真实手机或模拟器
  • ADB 工具:用于电脑与手机通信
  • 网络环境:手机与电脑在同一局域网(WiFi 连接更方便)

2.2 手机端设置:开启“被控制”权限

为了让电脑能操控手机,必须开启开发者权限。

  1. 开启开发者模式
    进入手机“设置” → “关于手机” → 连续点击“版本号”7次,直到提示“您已进入开发者模式”。

  2. 开启 USB 调试
    返回“设置” → “开发者选项” → 找到并勾选“USB 调试”。

  3. 安装 ADB Keyboard(关键!)
    下载并安装 ADB Keyboard 的 APK 文件。
    安装后,在“语言与输入法”中将默认输入法切换为ADB Keyboard
    这是为了让 AI 能通过 ADB 输入文字,否则无法在搜索框打字。

2.3 配置 ADB:让电脑认得手机

ADB 是连接电脑和安卓设备的桥梁。我们需要先安装并配置它。

Windows 用户:
  1. 下载 Platform Tools 并解压。
  2. 将解压后的文件夹路径添加到系统环境变量Path中。
  3. 打开命令行,输入:
    adb version
    如果显示版本号,说明配置成功。
macOS 用户:

在终端执行:

export PATH=${PATH}:~/Downloads/platform-tools

(假设 platform-tools 放在 Downloads 目录下)

2.4 部署控制端代码

现在,我们在本地电脑上拉取 Open-AutoGLM 的控制代码。

# 1. 克隆仓库 git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装依赖 pip install -r requirements.txt pip install -e .

这一步完成后,你的电脑就具备了“指挥”手机的能力。


3. 实战演示:让 AI 自动搜美食、关注博主

一切准备就绪,现在是见证奇迹的时刻。

3.1 连接设备:USB 还是 WiFi?

你可以选择两种方式连接手机:

方式一:USB 连接(稳定推荐)

用数据线将手机连上电脑,确保手机弹出“允许调试”提示时点击“确定”。

然后在命令行输入:

adb devices

如果看到类似ABCDEF123 device的输出,说明连接成功。

方式二:WiFi 无线连接(更自由)

先用 USB 连接,然后执行:

adb tcpip 5555

断开 USB,再通过 IP 连接:

adb connect 192.168.1.100:5555

(将 IP 替换为你的手机实际 IP)

3.2 启动 AI 代理:下达第一条指令

假设你的 AI 模型已经在云服务器上运行,提供了一个 API 接口(如http://your-server-ip:8800/v1),现在就可以启动代理了。

在 Open-AutoGLM 目录下运行:

python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开小红书,搜索‘上海网红甜品店’,打开排名第一的笔记。"

参数说明:

  • --device-id:通过adb devices获取的设备 ID 或 IP 地址
  • --base-url:AI 模型服务的地址
  • 最后的字符串:你的自然语言指令

执行后,你会看到 AI 开始自动操作手机:

  1. 解锁屏幕(如果已锁定)
  2. 找到并点击“小红书”图标
  3. 等待 App 加载
  4. 定位搜索框,输入“上海网红甜品店”
  5. 点击搜索
  6. 分析结果列表,点击点赞数最高的笔记

整个过程无需你手动干预,AI 会根据屏幕反馈动态调整操作。

3.3 更复杂任务:关注抖音博主

试试这条指令:

python main.py \ --device-id 192.168.1.100:5555 \ --base-url http://your-server-ip:8800/v1 \ --model "autoglm-phone-9b" \ "打开抖音,搜索抖音号 dycwo11nt61d,进入主页并关注。"

AI 会:

  • 打开抖音
  • 点击顶部搜索栏
  • 输入指定抖音号
  • 进入用户主页
  • 点击“关注”按钮

如果你设置了关注需验证,AI 会暂停并提示你手动确认,之后继续执行后续步骤。


4. 常见问题与使用技巧

4.1 遇到问题怎么办?这些坑我帮你踩过了

  • 问题1:ADB 连接失败,显示 unauthorized
    原因:手机未授权电脑调试。
    解决:检查是否弹出“允许USB调试”对话框,务必点击“允许”。

  • 问题2:AI 识别不到按钮或输不了字
    原因:未安装或未启用 ADB Keyboard。
    解决:确认已安装,并在“输入法”设置中将其设为默认。

  • 问题3:模型无响应或返回乱码
    原因:服务端 vLLM 配置不当,如显存不足或 max-model-len 设置过小。
    解决:检查服务端日志,确保模型加载正常,建议 GPU 显存 ≥ 24GB。

  • 问题4:WiFi 连接不稳定导致掉线
    建议:复杂任务优先使用 USB 连接,稳定性更高。

4.2 提升成功率的小技巧

  • 指令尽量具体:比如“搜‘北京三里屯火锅’”比“找个火锅店”更易执行。
  • 避免模糊描述:如“点那个红色的按钮”可能因界面变化导致识别错误。
  • 保持网络畅通:AI 需频繁截图上传,网络延迟会影响响应速度。
  • 关闭省电模式:防止手机自动锁屏或后台杀进程。

4.3 远程调用 API:集成到自己的项目中

除了命令行,你还可以用 Python 脚本远程控制设备:

from phone_agent.adb import ADBConnection, list_devices conn = ADBConnection() success, message = conn.connect("192.168.1.100:5555") print(f"连接状态: {message}") devices = list_devices() for device in devices: print(f"{device.device_id} - {device.connection_type.value}")

这让你可以把 Open-AutoGLM 集成到自动化测试、批量操作、智能客服等系统中。


5. 总结:AI 操作手机的时代已经到来

Open-AutoGLM 不只是一个技术 Demo,它代表了一种全新的交互范式:从“人操作手机”到“手机替人操作”

通过本文的实战,你应该已经体验到:

  • 如何部署一个能“看懂”和“操作”手机的 AI Agent;
  • 如何用自然语言指令自动完成搜索、关注、浏览等任务;
  • 如何排查常见问题,提升执行成功率。

虽然目前它还不能处理所有 App 的所有场景,复杂任务的成功率也有待提升,但它的开源为开发者提供了无限可能。你可以基于它构建:

  • 企业级自动化工具(如批量注册、数据采集)
  • 老年人友好助手(一键操作复杂流程)
  • 跨平台任务编排引擎(打通微信、淘宝、美团等)

更重要的是,它让我们重新思考:未来的手机,是不是真的需要我们“动手”?


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/30 12:29:15

一句话启动全自动流程,Open-AutoGLM效果超出预期

一句话启动全自动流程,Open-AutoGLM效果超出预期 Open-AutoGLM 不是脚本,不是自动化工具,而是一个真正能“看懂屏幕、理解意图、自主决策、动手执行”的手机端 AI Agent。它让大模型第一次拥有了物理世界的操作能力。 1. 这不是语音助手&…

作者头像 李华
网站建设 2026/1/29 18:21:51

BERT填空预测不准?置信度可视化调优实战教程来帮你

BERT填空预测不准?置信度可视化调优实战教程来帮你 1. 为什么填空结果总让你“将信将疑” 你是不是也遇到过这种情况:输入一句“春风又绿江南岸,明月何时照我[MASK]”,模型却返回了“归”(72%)、“回”&a…

作者头像 李华
网站建设 2026/1/29 16:26:44

BERT中文掩码模型实战对比:400MB小模型GPU利用率超90%

BERT中文掩码模型实战对比:400MB小模型GPU利用率超90% 1. BERT 智能语义填空服务 你有没有遇到过一句话只差一个词却怎么都想不起来的情况?或者写文章时卡在一个表达上,总觉得少了点“味道”?现在,一个仅400MB的轻量…

作者头像 李华
网站建设 2026/1/29 23:15:59

小白必看:VUE-CLI-SERVICE报错图解指南(含表情包)

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 制作一个面向新手的Vue环境问题解决助手:1. 使用卡通形象分步讲解错误原因 2. 提供点击修复按钮的交互式解决方案 3. 包含常见错误表情包(如依赖丢失、路径…

作者头像 李华
网站建设 2026/1/28 17:32:41

FinalShell下载官网:5分钟搭建服务器管理原型

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个快速原型工具,允许用户输入服务器基本信息(如IP、端口、认证方式),自动生成一个可立即使用的FinalShell连接配置。支持导出…

作者头像 李华
网站建设 2026/1/29 22:18:50

实测对比多种方案后,我选择了这个测试开机脚本镜像

实测对比多种方案后,我选择了这个测试开机脚本镜像 在嵌入式设备、边缘计算节点和小型服务器场景中,确保关键服务随系统启动自动运行,是稳定运维的第一道门槛。但实际落地时,很多人会发现:看似简单的“开机自启”&…

作者头像 李华