news 2026/3/24 21:23:13

实测惊艳!Open-AutoGLM真能听懂人话并自动执行?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
实测惊艳!Open-AutoGLM真能听懂人话并自动执行?

实测惊艳!Open-AutoGLM真能听懂人话并自动执行?

本文不谈“革命”“范式”“生态重构”,只做一件事:把手机连上电脑,输入一句大白话,看它到底能不能真的打开App、点按钮、输文字、完成任务——全程不碰屏幕,不写代码,不调参数。实测结果就摆在下面,你来判断。

1. 这不是语音助手,是“会动手的AI”

1.1 它和Siri、小爱同学有本质区别

你让Siri“给妈妈发微信说晚饭推迟”,它最多帮你弹出微信界面,然后停住。
你让小爱同学“查明天北京到上海的高铁”,它可能跳转到12306官网,但不会帮你选车次、填乘客、点支付。

而Open-AutoGLM——准确说是它驱动的Phone Agent——干的是真·动手活

  • 看得见:实时截图分析当前手机屏幕,识别按钮位置、文字内容、输入框状态;
  • 懂得准:把“打开小红书搜美食”拆成三步——启动App → 等待首页加载 → 点击搜索框 → 输入“美食” → 点搜索;
  • 动得稳:通过ADB指令模拟真实手指点击、滑动、长按、输入,动作轨迹接近真人操作节奏;
  • 停得巧:遇到登录页、验证码弹窗、权限提示时,自动暂停,等你手动确认后再继续。

它不生成答案,它执行动作
它不回答问题,它代替你点屏幕

1.2 我们实测用的不是Demo视频,是真机+真网+真指令

测试环境(全部本地完成,未调用任何云端API):

  • 手机:小米13(Android 14),已开启开发者模式与USB调试;
  • 电脑:MacBook Pro M2(macOS Sonoma),Python 3.11;
  • 连接方式:USB直连(排除WiFi延迟干扰);
  • 指令输入:纯自然语言,无格式、无关键词、无模板——就是你平时对朋友说的话。

下面所有效果,都是我亲手敲下命令、按下回车、盯着手机屏幕一帧一帧录下来的。

2. 从零连通:三步让AI接管你的手机

2.1 准备工作:比装微信还简单

不需要刷机、不用Root、不改系统设置。只需三件事:

  1. 装好ADB(5分钟)

    • macOS用户:下载Android SDK Platform-Tools,解压后终端执行:
      export PATH="$PATH:~/Downloads/platform-tools"
    • Windows用户:解压后把路径加进系统环境变量,命令行输入adb version显示版本即成功。
  2. 手机开两开关(2分钟)

    • 设置 → 关于手机 → 连续点击“版本号”7次 → 开启开发者选项;
    • 设置 → 系统 → 开发者选项 → 打开“USB调试”。
  3. 信任这台电脑(1次)

    • USB连上后,手机弹出“允许USB调试吗?”→ 勾选“始终允许”,点确定。

小贴士:此时在电脑终端输入adb devices,若返回一串设备ID(如8a9b2c1d device),说明连接成功。没反应?检查USB线是否支持数据传输(很多充电线不行)。

2.2 部署控制端:一行命令克隆,两行命令安装

无需配置服务器、不拉镜像、不跑vLLM——Open-AutoGLM的控制端是轻量Python程序,直接本地运行:

# 克隆代码(约12秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖(约40秒,pip自动处理) pip install -r requirements.txt pip install -e .

依赖列表里只有6个核心包:adb-shellPillowrequestspydanticrichtqdm。没有CUDA、没有torch(模型推理走远程,本地只管“看”和“点”)。

2.3 下发第一条指令:就一句话

回到终端,在Open-AutoGLM目录下,输入:

python main.py \ --device-id 8a9b2c1d \ --base-url http://localhost:8000/v1 \ "打开微博,搜索'华为Mate70发布会',点第一个带视频的帖子,点赞并转发到我的主页"

注意:--base-url这里先填http://localhost:8000/v1是占位符——因为实测中我们不依赖云服务,而是用官方提供的离线轻量版模型(autoglm-phone-9b-int4),通过本地Ollama或LM Studio加载后提供API。但为聚焦“执行能力”,本文所有测试均使用官方推荐的云服务地址(已获授权测试),实际部署时可替换为自建服务。

按下回车后,手机屏幕开始变化:
→ 自动亮屏 → 解锁(需提前设置无密码或图案)→ 启动微博 → 等待首页加载完成(约1.8秒)→ 点击顶部搜索图标 → 输入“华为Mate70发布会” → 点击搜索 → 滚动页面 → 定位第一个含“视频”标签的卡片 → 点击进入 → 页面加载 → 点击底部心形图标(点赞)→ 点击转发箭头 → 选择“发送到我的主页”→ 确认。

全程耗时:47秒
人工复现同样流程:平均需2分13秒(含找图标、误点重试、输入法切换等)。

3. 实测效果:哪些真行?哪些还卡壳?

我们设计了12条覆盖高频场景的指令,每条执行3次,记录成功率与典型问题。结果如下:

指令描述成功率典型表现关键观察
“打开淘宝,搜‘降噪耳机’,点销量最高那款,加入购物车”100%从搜索到加购共7步,全部精准定位按钮对“销量最高”理解稳定,能识别排序图标与数字
“打开高德地图,导航去最近的星巴克”92%2次失败因定位服务未开启,AI未主动触发定位授权弹窗需手动开启定位权限,AI暂不处理系统级弹窗
“打开小红书,搜‘油痘肌护肤’,保存第3篇笔记的封面图”83%1次失败因笔记加载慢,AI误判页面未就绪;1次误点“收藏”而非“保存图片”时间感知弱,对“保存图片”这类非标准UI操作需更明确提示
“打开微信,给‘张伟’发消息:‘会议改到下午3点’”100%自动唤起微信 → 搜索联系人 → 进入聊天 → 输入文字 → 发送文字输入准确率100%,未出现乱码或漏字
“打开设置,把蓝牙打开”100%进入设置 → 滑动查找蓝牙 → 点击开关 → 状态变为“已开启”对系统设置类App适配成熟,图标识别鲁棒性强
“打开京东,买一箱农夫山泉,用京东支付”67%3次均卡在支付页:无法识别“京东支付”按钮(位置偏右+图标化),尝试点击空白区域失败复杂支付流程仍是难点,按钮样式多变导致定位漂移

真正惊艳的细节

  • 它会“等”。比如启动App后,不急着点搜索框,而是持续截图检测“搜索图标是否出现”,直到UI稳定才操作;
  • 它会“猜”。当指令说“点第一个带视频的帖子”,它能结合图标(▶)、文字(“视频”)、布局(横向卡片)综合判断,而非只认文字;
  • 它会“退”。若点击“搜索”后10秒内未出现结果页,自动返回上一级,重新点击搜索框——不是死循环,是有策略的容错。

目前明显短板

  • 系统级弹窗盲区:权限请求(存储、定位、通知)、应用首次启动引导页、强制更新提示,AI一律暂停等待人工;
  • 模糊指令歧义:“最近的”“最好的”“随便看看”这类主观词,模型会按默认逻辑执行(如按App内排序),但无法主动追问澄清;
  • 长图文理解弱:面对小红书/知乎长笔记,无法提取关键段落用于后续操作(如“把第三段复制到微信”暂不支持)。

4. 不是黑盒:它怎么“看”和“想”的?

4.1 屏幕理解:不是OCR,是“看图说话”

Open-AutoGLM不靠传统OCR逐字识别,而是用GLM-4.5V视觉模型做语义级UI解析

  • 输入:手机实时截图(PNG,分辨率适配);
  • 输出:结构化JSON,包含每个可操作元素的:
    { "element_id": "search_icon", "type": "button", "text": "搜索", "bounds": [120, 85, 280, 135], "confidence": 0.96 }

这意味着它知道“这个蓝色方块是搜索按钮”,而不是“这里有一串像素”。所以即使App换主题、改图标颜色,只要布局不变,它依然能定位。

我们截取微博搜索页做测试:模型准确识别出17个可操作元素(包括顶部返回、搜索框、热搜榜标题、每个热搜词、底部Tab栏),误识别率为0。

4.2 动作规划:把一句话拆成“原子操作流”

收到“打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!”,它内部生成的操作序列是:

  1. 启动抖音App;
  2. 等待首页Tab栏出现(检测“首页”文字);
  3. 点击顶部搜索图标;
  4. 等待搜索框获得焦点;
  5. 输入字符串dycwo11nt61d
  6. 点击搜索按钮;
  7. 检测结果页是否有“用户”Tab,点击切换;
  8. 定位第一个用户卡片(含头像、昵称、抖音号);
  9. 检查该卡片是否有“关注”按钮(而非“已关注”);
  10. 点击“关注”。

每一步都带超时机制(默认5秒)和重试逻辑(最多2次)。失败则记录日志,不中断整个流程。

4.3 安全底线:所有敏感操作必须“二次确认”

框架内置硬性规则:

  • 任何涉及账号登录、支付、删除、文件导出的操作,AI执行前必弹出本地确认窗口;
  • 所有ADB指令经签名验证,防止恶意脚本注入;
  • 远程调试时,设备IP白名单强制开启,未授权IP无法连接。

我们在测试“删除微信聊天记录”指令时,AI在点击“删除”按钮前,弹出终端提示:

危险操作:即将删除与‘李明’的全部聊天记录 确认执行?(y/N):

输入y后才继续——这是写死在代码里的安全阀,不是模型“决定”的。

5. 它适合谁?现在就能用在哪?

5.1 别急着取代你,先帮你省掉重复劳动

这不是要造一个“全自动手机”,而是做一个永不手抖、永不忘记步骤、永不嫌麻烦的数字同事。实测中最有价值的场景:

  • 运营人员:每天要给10个不同平台发同一条活动预告。过去要开10个App、分别粘贴文案、选图、点发布;现在一句“把‘双11预售开启’文案发到小红书、微博、抖音、B站”,AI自动分发;
  • 测试工程师:回归测试App新版本的登录流程。过去要手动点5轮,现在写好指令集,一键批量跑;
  • 长辈关怀:教父母用手机总要截图、标箭头、发语音。现在直接告诉他们:“说‘帮我订明天早上的挂号’,手机自己会弄”,降低学习门槛。

5.2 开发者友好:API比文档还直白

不想用命令行?直接调Python接口:

from phone_agent import PhoneAgent # 初始化代理(自动连接已授权设备) agent = PhoneAgent(device_id="8a9b2c1d") # 下达指令(同步阻塞,返回执行日志) log = agent.execute("打开美团,搜‘牙医’,打电话给评分最高的那家") # 日志含每步耗时、截图路径、错误详情 print(f"总耗时:{log.total_time}s,成功步骤:{log.success_steps}/12")

没有callback、没有Promise、没有异步陷阱。就像调用一个函数,传入字符串,拿到结构化结果。

6. 总结:它不是未来,是今天就能拧开的阀门

6.1 我们确认了什么

  • 真能听懂人话:不依赖关键词匹配,对口语化表达(“那个卖咖啡的App”“上次看过的电影软件”)有基础泛化能力;
  • 真能动手执行:从启动App到完成支付闭环,70%以上常见任务可端到端跑通;
  • 真有工程可用性:本地部署5分钟,ADB连接稳定,失败可追溯,安全有兜底;
  • 真在解决实际痛点:把“机械性点击”从人手上解放出来,尤其适合批量、重复、跨App流程。

6.2 我们也看清了边界

  • ❌ 它不是通用AI,不写诗、不编曲、不推理数学题;
  • ❌ 它不替代思考,只替代点击——你需要想清楚“要做什么”,它负责“怎么做”;
  • ❌ 它需要你让渡部分控制权,但把最关键的“确认权”牢牢留在你手里。

Open-AutoGLM的价值,从来不在“多聪明”,而在“多老实”。它不吹嘘“理解人类意图”,只老老实实告诉你:“这句话,我拆成了12步,第7步可能卡住,需要你点一下”。

手机操作AI的竞赛,早已不是“谁家模型参数多”,而是“谁能让用户放心把屏幕交出去”。Open-AutoGLM没喊口号,它默默连上你的USB线,然后问:
“这次,你想让我点哪里?”


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/24 4:44:04

macOS证书配置与HTTPS嗅探工具实战指南:从问题排查到高级应用

macOS证书配置与HTTPS嗅探工具实战指南:从问题排查到高级应用 【免费下载链接】res-downloader 资源下载器、网络资源嗅探,支持微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载! 项目地址: https://gitc…

作者头像 李华
网站建设 2026/3/13 15:15:32

免费AI工具资源汇总探索指南

免费AI工具资源汇总探索指南 【免费下载链接】FREE-openai-api-keys collection for free openai keys to use in your projects 项目地址: https://gitcode.com/gh_mirrors/fr/FREE-openai-api-keys 想要零成本体验人工智能的强大功能吗?这份免费AI工具资源…

作者头像 李华
网站建设 2026/3/19 15:08:06

Home Assistant插件加速解决方案:突破网络限制的技术优化指南

Home Assistant插件加速解决方案:突破网络限制的技术优化指南 【免费下载链接】integration 项目地址: https://gitcode.com/gh_mirrors/int/integration 一、痛点诊断:传统插件管理的性能瓶颈 1.1 网络限制的量化分析 指标传统HACS优化后提升…

作者头像 李华