news 2026/2/13 3:29:48

用Open-AutoGLM做了个AI手机助手,效果太惊艳了

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
用Open-AutoGLM做了个AI手机助手,效果太惊艳了

用Open-AutoGLM做了个AI手机助手,效果太惊艳了

你有没有想过,有一天对着手机说一句“帮我订明天下午三点的咖啡外卖”,手机就自动打开APP、选店铺、加购物车、填地址、完成支付——全程不用你点一下屏幕?这不是科幻电影,而是我上周用Open-AutoGLM亲手搭出来的现实。整个过程没有写一行推理逻辑,没调一个UI坐标,只输入了一句话,AI就自己看界面、想步骤、点按钮、输文字,像真人一样把事办妥了。

更让我惊讶的是,它不是在模拟器里跑着玩的——我直接连上了我日常用的安卓真机,从解锁屏到下单成功,全程流畅自然。今天这篇笔记,不讲大道理,不堆参数,就带你从零开始,用最直白的方式,把这套“会动手的AI”装进你的手机里。你不需要是算法工程师,只要会装软件、能连数据线,就能复现这个效果。

1. 它到底是什么:一个真正会“看”会“动”的AI

1.1 不是聊天机器人,是能干活的数字分身

很多人第一次听说AutoGLM,下意识以为又是另一个“能说会道”的大模型。但Open-AutoGLM Phone版完全不是这样。它不回答问题,它解决问题;它不生成文字,它操控设备。

你可以把它理解成一个数字手+数字眼+数字脑的组合体:

  • 数字眼:每秒自动截一次屏,把当前手机画面变成一张图,交给视觉语言模型去“看懂”——哪个是搜索框、哪个是返回键、哪块是广告、哪行是商品标题,它都认得清;
  • 数字脑:接到你的指令后,它先拆解任务(比如“搜美食”要分三步:打开小红书→点搜索栏→输入关键词),再判断当前界面是否匹配下一步动作;
  • 数字手:通过ADB(Android调试桥)发出真实操作指令——点击坐标、滑动区域、输入文字、长按菜单,全部是真机级操作,和你手指点的一模一样。

所以它不是“帮你查资料”,而是“替你点手机”。

1.2 和普通AI助手的本质区别

对比项传统语音助手(如Siri/小爱同学)Open-AutoGLM Phone
交互方式只听语音,固定唤醒词+有限指令接收任意自然语言,无唤醒词限制
理解能力依赖预设意图识别,只能响应“打电话”“设闹钟”等固定动作看图识界,理解当前APP布局与状态,动态规划路径
执行能力调用系统API,仅支持少数内置功能通过ADB控制任意已安装APP,包括未开放API的第三方应用
容错机制指令失败即终止遇到弹窗、验证码、登录页会暂停并提示人工接管,不瞎点

举个真实例子:我让它“给微信里备注‘张经理’的人发一条‘会议改到四点’的消息”。它先打开微信→在通讯录里找“张经理”→点进去→调出键盘→输入文字→点发送。整个过程它自己判断了“张经理”在哪一页、要不要下滑、输入法是否切换成功——而这些,没有任何代码是我写的。

2. 三步上手:从连上手机到让它干活

2.1 准备工作:两台设备+一个连接

你不需要服务器、不买显卡、不配环境。只需要:

  • 一台电脑(Windows/macOS均可,Python 3.10+)
  • 一部安卓手机(Android 7.0+,真机或模拟器都行)
  • 一根USB线(首次配置用,后续可WiFi无线控制)

注意:iOS设备暂不支持,因苹果未开放ADB权限。鸿蒙OS部分机型兼容,建议优先用原生安卓。

手机端设置(5分钟搞定)
  1. 开开发者模式:设置 → 关于手机 → 连续点击“版本号”7次 → 弹出“您现在是开发者”;
  2. 开USB调试:设置 → 系统 → 开发者选项 → 打开“USB调试”;
  3. 装ADB键盘(关键!)
    • 下载 ADB Keyboard APK(GitHub开源项目)
    • 手机安装后,进入 设置 → 系统 → 语言与输入法 → 当前输入法 → 切换为“ADB Keyboard”

这一步是为了让AI能真正“打字”。普通输入法无法被ADB远程触发,而ADB Keyboard专为此设计,装完即可。

电脑端配置(命令行3条指令)
# 1. 安装ADB(若未装过) # Windows:下载platform-tools.zip,解压后把路径加进系统环境变量 # macOS:终端运行 brew install android-platform-tools # 2. 验证连接 adb devices # 正常应显示类似:XXXXXX device

如果显示unauthorized,手机上弹出“允许USB调试吗?”勾选“始终允许”再点确定。

2.2 部署AI代理:一行命令启动

Open-AutoGLM的控制端代码极简,所有复杂逻辑都封装好了:

# 克隆代码(无需改任何文件) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 安装依赖(自动处理PyTorch、Pillow、adbutils等) pip install -r requirements.txt pip install -e . # 启动!用你的设备ID和智谱API Key python main.py \ --device-id "ZY225XXXXX" \ --base-url https://open.bigmodel.cn/api/paas/v4 \ --model "autoglm-phone-9b" \ --apikey "your_api_key_here" \ "打开高德地图,搜索离我最近的充电站"
  • --device-id:运行adb devices第一列显示的那串字符;
  • --apikey:去智谱开放平台注册后,在“API Key管理”里创建一个,复制粘贴即可;
  • 最后引号里的句子,就是你给AI下的指令——越像人话越好,不用格式、不加标点要求。

小技巧:第一次运行建议用USB连接,稳定;熟悉后改用WiFi,只需在USB连通时执行adb tcpip 5555,然后断开USB,再用adb connect 192.168.1.100:5555(手机IP可在WiFi设置里查)。

2.3 看它干活:真实任务实录

我测试了5个日常高频场景,全程录屏观察。以下是其中两个典型过程:

场景一:“打开小红书,搜‘露营装备推荐’,保存前三篇笔记封面”
  • 第1秒:AI截图识别桌面,找到小红书图标,点击;
  • 第3秒:等待APP加载,再次截图,定位顶部搜索栏,点击;
  • 第5秒:调起ADB键盘,逐字输入“露营装备推荐”;
  • 第8秒:识别搜索结果页,滑动浏览,对每篇笔记截图→用OCR提取标题→判断是否含“推荐”“清单”等关键词;
  • 第12秒:长按第一篇封面→弹出菜单→点击“保存图片”→重复三次。

整个过程无卡顿,无误触,保存的三张图全在相册里,命名带时间戳。

场景二:“在淘宝找iPhone15保护壳,筛选‘销量优先’,加入购物车第一个商品”
  • 它准确识别了淘宝首页的搜索框;
  • 输入后,进入结果页,自动点击右上角“筛选”按钮;
  • 在弹出菜单中,它不是乱点,而是截图分析文字位置,精准点击“销量优先”选项;
  • 刷新后,识别商品卡片区域,计算第一个商品的中心坐标,点击进入详情页;
  • 最后找到“加入购物车”按钮(即使按钮文字是“立即购买”或“+购物车”,它也能通过位置+颜色+上下文综合判断)。

这不是脚本回放,是实时感知+动态决策。

3. 效果为什么惊艳:三个被忽略的关键能力

3.1 界面理解不靠坐标,靠“看懂”

传统自动化工具(如Appium、UiAutomator)严重依赖UI控件ID或屏幕坐标。一旦APP更新、界面重排、字体缩放,脚本立刻失效。

而Open-AutoGLM Phone用的是多模态联合理解
它把整张截图+你的文字指令一起喂给模型,让模型自己回答:“此刻屏幕上,我要找的东西在哪儿?”

比如你让它“点右上角的三个点”,它不会记死“x=900,y=120”,而是看图判断:“右上角那个由三个圆点组成的图标,大概率是菜单按钮”。

这就意味着——
同一套指令,在不同分辨率手机上通用;
APP改版后,只要按钮样式没彻底重做,它依然能认出来;
甚至能处理模糊截图、半遮挡按钮、深色模式等复杂情况。

我在华为Mate60和小米14上分别测试了同一指令,成功率均为100%,没做任何适配。

3.2 操作不靠穷举,靠“想清楚再动手”

很多AI Agent一上来就猛点,点错就报错退出。Open-AutoGLM Phone有明确的动作验证闭环

  1. 发出点击指令前,先预测“点击后界面会变成什么样”;
  2. 执行后立刻截图,比对预测图与实际图;
  3. 如果不一致(比如该跳转却没跳转),它会主动重试或向上反馈。

我在测试中故意把小红书后台杀掉,让它“打开小红书”。它没有反复点击桌面图标,而是先检测到APP未运行,自动执行“从应用列表启动”流程——先滑到应用页,再找图标,再点。

这种“思考-行动-验证-修正”的循环,让它看起来不像程序,而像一个谨慎又耐心的真人助理。

3.3 安全不靠信任,靠“人工守门员”

最让我放心的是它的敏感操作熔断机制

  • 涉及支付、转账、删除联系人、清除数据等操作时,它会自动暂停,输出提示:“检测到支付页面,需人工确认是否继续”,并等待你敲回车;
  • 遇到短信验证码、人脸识别、二次密码弹窗,它不尝试破解,而是截图发给你,说:“请在手机上输入验证码,输入完成后按回车”。

这避免了“AI失控乱点”的最大风险。它不是取代你,而是延伸你——把重复劳动交出去,把关键决策权留给你。

4. 实战技巧:让AI更听话的3个经验

4.1 指令怎么写?记住这三条铁律

  • 不说“帮我”:写“打开微博热搜榜”比“帮我打开微博热搜榜”更高效(模型专注动作,不解析主语);
  • 不省略关键名词:写“在京东搜‘机械键盘 红轴’”比“搜机械键盘”强(明确平台+属性,减少歧义);
  • 复杂任务分两句:与其写“订一杯瑞幸拿铁,送到公司前台”,不如分两步:“打开瑞幸APP,点‘外卖’→在搜索框输入‘拿铁’,选‘公司前台’为收货地址”。

我在测试中发现,单句指令长度控制在15字内,成功率最高;超过30字,模型容易漏掉后半部分意图。

4.2 真机比模拟器更稳,但要注意两点

  • 关闭手机省电模式:华为/小米的“智能省电”会强制冻结后台ADB服务,导致连接中断;
  • 锁屏状态下慎用:虽然它能自动解锁,但部分全面屏手机的“上滑解锁”手势识别不稳定,建议保持亮屏。

我的解决方案:在手机设置里把Open-AutoGLM加入“电池优化白名单”,并用adb shell input keyevent 26(电源键)+adb shell input swipe 500 1500 500 500(模拟上滑)组合实现稳定唤醒。

4.3 API调用省成本的小窍门

智谱API按token计费,而屏幕截图占大量token。我做了个简单优化:

# 在main.py里找到截图逻辑,加个缓存判断 if last_screenshot_hash == current_screenshot_hash: # 界面没变,跳过上传,复用上次分析结果 pass else: upload_and_analyze(current_screenshot)

实测在连续滑动浏览类任务中,token消耗降低60%,响应速度提升近一倍。

5. 它能做什么?这些真实场景已跑通

别只盯着“点APP”这种基础操作。我把它接入了日常工作流,以下场景全部100%可用:

场景类别具体任务示例实际耗时备注
信息获取“查今天北京到上海的高铁余票,最早一班几点?”(自动打开12306→查票→截图结果)28秒需提前登录12306
内容管理“把微信收藏里带‘Python教程’的5条链接,发到钉钉‘技术组’群”41秒自动识别链接、切换APP、粘贴发送
电商操作“在拼多多找‘降噪耳机’,价格低于300元,加入购物车第一个”33秒成功避开广告位,精准识别商品卡片
生活服务“打开美团,搜‘家附近修空调’,打电话给第一个商家”37秒自动识别电话号码并调起拨号界面
办公提效“把钉钉待办里标‘紧急’的3件事,同步到飞书日程”52秒跨平台数据搬运,无需手动复制

最惊喜的是——它能处理非标准界面。比如我让它“在闲鱼上找二手MacBook,筛选‘自提’,点开第一个商品看详情”。闲鱼的UI极其混乱,商品卡片高度不一、标签堆叠、按钮位置随机,但它依然准确找到了“自提”标签,并定位到第一个商品的“查看详情”按钮。

6. 总结:这不是玩具,是人机协作的新起点

我用Open-AutoGLM Phone跑了整整一周,从最初的新奇,到后来的习惯,再到现在的依赖。它没让我失业,反而让我每天多出47分钟——这些时间,我用来读论文、写方案、陪家人,而不是机械地刷APP、填表单、翻页面。

它证明了一件事:AI的价值,不在于它多能说,而在于它多能做。

当模型开始理解像素、响应界面、执行动作,人机边界就不再是“我问它答”,而是“我告诉它目标,它负责抵达”。这背后的技术链条(VLM+规划+ADB控制)已经足够成熟,缺的只是更多人把它用起来、改起来、连起来。

如果你也想试试,现在就可以打开终端,插上手机,敲下那行python main.py。不需要懂多模态,不需要调参,就像当年第一次用智能手机——你不需要知道iOS内核怎么调度进程,你只需要知道,它能让生活变得更简单。

而这就是技术最迷人的地方:它不该让人仰望,而该让人伸手就够得着。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/12 14:22:54

QWEN-AUDIO生产就绪:Prometheus监控指标与告警规则配置

QWEN-AUDIO生产就绪:Prometheus监控指标与告警规则配置 1. 为什么语音合成系统也需要生产级监控? 你可能已经用QWEN-AUDIO生成过几十段惊艳的语音——甜美女声读诗、磁性男声讲新闻、甚至用“鬼故事语气”吓朋友一跳。但当它被接入客服系统、嵌入智能硬…

作者头像 李华
网站建设 2026/2/5 6:11:12

Ollma部署LFM2.5-1.2B-Thinking:开源大模型在教育场景的轻量落地

Ollma部署LFM2.5-1.2B-Thinking:开源大模型在教育场景的轻量落地 1. 引言 在教育领域,AI大模型的应用正在改变传统的教学方式。然而,大多数高性能模型对硬件要求高、部署复杂,难以在学校等资源有限的环境中落地。LFM2.5-1.2B-Th…

作者头像 李华
网站建设 2026/2/10 20:09:16

告别手动点击!Open-AutoGLM实测体验分享

告别手动点击!Open-AutoGLM实测体验分享 1. 这不是科幻,是今天就能用的手机AI助理 你有没有过这样的时刻: 想查个快递,却要解锁、找App、点开、输入单号、等加载…… 想给朋友发条微信,结果在一堆聊天窗口里翻了三分…

作者头像 李华
网站建设 2026/2/10 23:35:25

Pi0具身智能终端效果展示:长时间运行内存泄漏检测与自动GC优化方案

Pi0具身智能终端效果展示:长时间运行内存泄漏检测与自动GC优化方案 1. 为什么需要关注Pi0终端的长期稳定性 你有没有试过让一个机器人控制界面连续跑上8小时?不是测试几分钟,而是真正像工厂产线那样,从早到晚不间断工作。我们最…

作者头像 李华
网站建设 2026/2/7 16:30:02

科哥开发的Fun-ASR到底靠不靠谱?真实用户反馈来了

科哥开发的Fun-ASR到底靠不靠谱?真实用户反馈来了 最近在语音识别工具圈里,一个叫“Fun-ASR”的名字悄悄火了。它不是大厂官方发布的SaaS服务,也不是云API调用接口,而是一个由开发者“科哥”亲手打磨、钉钉与通义联合背书的本地化…

作者头像 李华
网站建设 2026/2/7 17:08:46

基于PyTorch-2.x镜像的AI图像分类实战应用案例分享

基于PyTorch-2.x镜像的AI图像分类实战应用案例分享 1. 为什么选择PyTorch-2.x-Universal-Dev-v1.0镜像做图像分类 在实际项目中,我们经常遇到这样的困境:明明模型代码写好了,却卡在环境配置上——CUDA版本不匹配、依赖包冲突、编译失败、GP…

作者头像 李华