news 2026/5/12 12:51:28

远程控制手机新姿势,Open-AutoGLM实战演示

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
远程控制手机新姿势,Open-AutoGLM实战演示

远程控制手机新姿势,Open-AutoGLM实战演示

本文基于智谱AI开源项目 Open-AutoGLM 的实操经验,手把手带你用自然语言远程操控真实安卓手机——无需编程基础,不碰一行ADB命令,真正实现“说句话,手机就动”。

1. 这不是科幻,是今天就能用的手机AI助理

你有没有过这样的时刻:

  • 想批量给50个微信好友发节日祝福,却卡在反复点开、输入、发送的机械操作里;
  • 看到小红书一篇爆款笔记想收藏,但正开会没法伸手摸手机;
  • 测试App新版本时,为验证“登录→进个人页→改头像”流程,手动重复操作20遍,手指发酸。

这些场景,现在只需一句话:“打开微信,给张三、李四、王五各发一条‘节日快乐’”,Open-AutoGLM 就会自动完成全部动作——它不是脚本,不是录屏回放,而是一个能“看懂”屏幕、“听懂”指令、“动手”执行的多模态AI智能体。

我用一台旧款华为P30(Android 10)和一台MacBook,在30分钟内完成了从零部署到成功运行“抖音搜博主并关注”的全流程。没有云服务器,不调GPU,所有推理请求都发往智谱官方提供的免费API端点。这篇文章,就是这份实操笔记的完整复刻。

2. 三步上手:不装环境、不配显卡、不写代码

2.1 你的设备,只要满足这3个条件

  • 手机:Android 7.0及以上(2016年后的主流机型基本都支持),无需Root
  • 电脑:Windows/macOS/Linux任意系统,有USB口或同WiFi网络
  • 网络:能访问互联网(模型服务由云端提供,本地只跑轻量控制端)

验证小技巧:在手机“设置→关于手机”里连点7次“版本号”,看到“您已处于开发者模式”即达标;再进“开发者选项”,勾选“USB调试”——整个过程不到1分钟。

2.2 一键安装:3条命令搞定全部依赖

打开终端(macOS/Linux)或命令提示符(Windows),依次执行:

# 1. 克隆项目(约15秒) git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM # 2. 安装Python依赖(约40秒,全程联网下载) pip install -r requirements.txt # 3. 本地安装包(关键!让后续命令可直接调用) pip install -e .

注意:如果提示pip版本过低,请先执行python -m pip install --upgrade pip。全程无需安装CUDA、PyTorch或任何AI框架——所有模型计算都在云端完成。

2.3 连接手机:USB线 or WiFi?两种方式任选

USB直连(推荐新手,稳定零失败)
  1. 用原装数据线连接手机与电脑
  2. 手机弹出“允许USB调试”提示,勾选“始终允许”,点击确定
  3. 在终端输入:
adb devices

若看到类似ZY223456789 device的输出,说明连接成功

WiFi无线连接(适合桌面场景)
  1. 先用USB线连接一次,执行:
adb tcpip 5555
  1. 拔掉USB线,确保手机与电脑在同一WiFi下
  2. 查看手机IP(设置→关于手机→状态→IP地址),假设为192.168.1.105,执行:
adb connect 192.168.1.105:5555
  1. 再次运行adb devices,确认设备在线

小贴士:WiFi连接后,手机可放在远处充电,你坐在电脑前发号施令——这才是真正的“远程控制”。

3. 第一次实战:用自然语言让手机自己干活

3.1 最简命令:一句话启动AI代理

Open-AutoGLM目录下,直接运行:

python main.py "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"

你会看到终端开始滚动输出,几秒后手机屏幕自动亮起、解锁(如已锁屏)、打开抖音、搜索框弹出、输入ID、点击搜索、进入主页、定位“关注”按钮并点击——全程无需你触碰手机。

实测效果:从命令执行到关注成功,耗时约12秒(含网络延迟)。手机型号:华为P30;网络:家庭千兆WiFi。

3.2 命令参数详解:像配置APP一样简单

上述命令隐含了默认参数,你可根据需要显式指定:

python main.py \ --device-id "ZY223456789" \ # adb devices显示的ID,USB连接时必填 --base-url "https://api.zhipu.ai/v1" \ # 智谱官方API地址(免费,无需申请key) --model "autoglm-phone-9b" \ # 模型名,当前唯一可用 "打开小红书,搜索‘咖啡拉花教程’,保存前三篇笔记封面图"
参数说明是否必需默认值
--device-id设备唯一标识USB连接时必需
--base-url模型服务地址https://api.zhipu.ai/v1
--model模型名称autoglm-phone-9b

官方API说明:目前对个人开发者免费开放,无需注册、无需配额申请,直接调用即可。响应速度稳定在1.5~2.5秒/步。

3.3 支持哪些自然语言指令?这些真实案例已验证

我们测试了37条不同复杂度的指令,全部成功执行。以下是高频实用场景:

  • 应用启停类
    关闭所有后台应用
    回到手机桌面

  • 内容搜索类
    在淘宝搜‘无线充电器’,按销量排序,打开第一个商品
    在B站搜‘Python入门’,播放播放量最高的视频

  • 社交操作类
    微信里找到‘产品经理群’,发消息‘会议改到下午3点’
    微博关注‘人民日报’和‘新华社’

  • 系统设置类
    把手机亮度调到50%
    开启蓝牙,并连接上次配对的耳机

  • 跨应用组合类
    用高德地图查‘北京西站’到‘首都机场’的路线,截图发给微信里的‘旅行伙伴’

关键发现:指令越接近日常口语,成功率越高。避免使用“点击坐标(500,300)”这类技术表述,AI更擅长理解“左上角的返回箭头”“右下角的加号按钮”等语义化描述。

4. 进阶玩法:让AI帮你做更聪明的事

4.1 批量任务:一条命令,循环执行

想给通讯录里所有备注“客户”的人发统一消息?用Python API轻松实现:

from phone_agent.adb import ADBConnection from phone_agent.agent import PhoneAgent from phone_agent.model.client import ModelClientConfig # 初始化连接 conn = ADBConnection() conn.connect("ZY223456789") # 替换为你的设备ID # 配置模型客户端 model_config = ModelClientConfig( base_url="https://api.zhipu.ai/v1", model_name="autoglm-phone-9b" ) # 创建AI代理 agent = PhoneAgent(model_config=model_config, device_id="ZY223456789") # 批量执行 contacts = ["张三", "李四", "王五"] for name in contacts: result = agent.run(f"微信里找到{name},发消息‘您好,这是本月产品更新资料’") print(f"{name}: {result}")

效果:自动遍历联系人列表,逐个打开聊天窗口、输入文字、发送。中间遇到键盘未弹出等异常,AI会自动重试,无需人工干预。

4.2 人工接管:当AI遇到验证码或支付密码

某些场景(如登录、支付、人脸识别)系统会阻止截图,此时Open-AutoGLM会主动暂停并请求人工介入:

  1. 终端输出:Takeover required: 请手动完成微信支付密码输入
  2. 手机屏幕停留在支付页面,你手动输入密码
  3. 输入完成后,按回车键,AI继续后续步骤

安全设计:所有敏感操作(涉及资金、隐私)均强制人工确认,杜绝误操作风险。

4.3 自定义提示词:让AI更懂你的习惯

想让AI优先使用语音输入而非键盘?或要求它在每步操作后截图存档?修改phone_agent/config/prompts_zh.py中的SYSTEM_PROMPT即可:

# 在原有提示词末尾添加: """ 额外要求: - 所有文本输入必须使用语音转文字(长按麦克风图标) - 每次点击后,自动截取屏幕并保存到/sdcard/agent_logs/ - 如果遇到‘稍后提醒’按钮,一律选择‘不再提醒’ """

🛠 修改后无需重启服务,下次运行命令即生效。提示词工程,就是你的“AI使用说明书”。

5. 常见问题速查:90%的问题,3步解决

5.1 连接失败?先做这3件事

现象原因解决方案
adb devices无输出USB调试未开启或驱动异常重新开关“USB调试”,Windows用户安装ADB驱动
显示unauthorized手机未授权电脑调试拔插USB线,手机弹窗点“允许”并勾选“始终允许”
WiFi连接后adb shell超时手机休眠导致ADB断连设置→电池→更多电池设置→关闭“优化电池使用”

5.2 AI执行错乱?检查这两个关键点

  • 指令歧义点开设置可能被理解为“打开设置App”或“点击设置图标”。改为打开手机设置App点击桌面上的齿轮图标更准确。
  • 界面加载延迟:AI在页面未完全渲染时就开始操作。在指令末尾加等待页面加载完成,AI会自动插入Wait指令。

5.3 中文输入乱码?只需1步修复

  1. 下载 ADB Keyboard APK
  2. 手机安装后,进入设置→语言与输入法→当前输入法,切换为ADB Keyboard
  3. 无需其他配置,AI会自动接管输入

验证方法:在终端执行python -c "from phone_agent.adb.input import type_text; type_text('你好世界')",查看手机是否正确显示。

6. 它能做什么?一份真实能力清单

我们实测了Open-AutoGLM在以下5大类场景的表现,标注为(稳定成功)、(需微调指令)、❌(暂不支持):

场景具体任务结果备注
应用操作启动/关闭50+主流App(微信、淘宝、抖音等)包名映射表已预置,覆盖95%国内常用App
内容交互在网页中查找关键词、滚动到底部、点击“加载更多”基于视觉定位,不依赖HTML结构
图像处理截图后用美图秀秀编辑、保存到相册需明确指令如“打开刚截图的图片,用美图秀秀添加滤镜”
多步事务京东下单:搜商品→选规格→加购→去结算→提交订单复杂流程建议分步指令,如先执行“加购”,再执行“去结算”
实时交互视频通话中静音/开启摄像头ADB无法控制部分系统级权限,需厂商深度适配

性能实测数据(华为P30 + 千兆WiFi):

  • 平均单步耗时:1.8秒(含截图、上传、推理、执行)
  • 连续执行10步任务:成功率92%,失败主因是网络抖动导致截图超时
  • 内存占用:控制端常驻内存<80MB,对电脑无压力

7. 总结:为什么这是手机自动化的正确打开方式

Open-AutoGLM 不是又一个ADB脚本封装,它的突破在于用多模态AI重构了人机交互范式

  • 告别坐标思维:你不用记住“微信图标在(200,150)”,只需说“点开那个绿色聊天图标”;
  • 终结重复劳动:销售每天发50条产品链接、运营批量收藏竞品笔记、测试工程师回归验证——这些事,现在交给AI;
  • 安全与可控并存:敏感操作人工接管、所有指令可审计、执行过程实时可见;
  • 零门槛即用:没有Python基础?照着本文复制命令就行;不想折腾环境?官方API开箱即用。

它或许还不能替代专业自动化工具(如Appium),但在快速验证、日常提效、原型探索场景中,已经展现出惊人的生产力。下一步,我计划用它搭建一个“微信日报机器人”:每天早9点自动抓取团队群最新消息,生成摘要,推送至钉钉——而这一切,只需要把今天的实操经验,再复制粘贴一遍。

技术的价值,从来不在参数多炫酷,而在是否让普通人多了一件趁手的工具。Open-AutoGLM,就是那把刚刚打磨好的钥匙。


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 5:35:40

Sambert发音人切换延迟?缓存机制优化实战教程

Sambert发音人切换延迟&#xff1f;缓存机制优化实战教程 1. 为什么发音人切换会卡顿——从开箱即用说起 你刚拉起Sambert多情感中文语音合成镜像&#xff0c;点开Web界面&#xff0c;选中“知北”发音人&#xff0c;输入一段文字&#xff0c;点击合成——声音流畅自然。可当…

作者头像 李华
网站建设 2026/5/11 6:00:29

如何突破Unity游戏语言壁垒?3大创新翻译方案深度解析

如何突破Unity游戏语言壁垒&#xff1f;3大创新翻译方案深度解析 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 在全球化游戏市场中&#xff0c;Unity引擎开发的多语言游戏正面临着本地化难题。XUnity.A…

作者头像 李华
网站建设 2026/5/11 6:33:26

MinerU如何扩展自定义模型?models-dir路径配置

MinerU如何扩展自定义模型&#xff1f;models-dir路径配置 MinerU 2.5-1.2B 深度学习 PDF 提取镜像专为解决复杂排版文档的结构化提取而生。它不是简单地把PDF转成文字&#xff0c;而是能准确识别多栏布局、嵌套表格、数学公式、矢量图与扫描图混合内容&#xff0c;并输出语义…

作者头像 李华
网站建设 2026/5/11 7:07:49

YOLO11工业质检案例,缺陷检测提效

YOLO11工业质检案例&#xff0c;缺陷检测提效 在工厂产线上&#xff0c;一个微小的划痕、气泡或错位&#xff0c;可能让整批产品无法通过出厂检验。传统人工目检不仅疲劳度高、漏检率波动大&#xff0c;还难以统一标准&#xff1b;而早期AI方案又常受限于部署复杂、泛化能力弱…

作者头像 李华
网站建设 2026/5/11 7:08:52

如何用XUnity Auto Translator解决Unity游戏本地化难题

如何用XUnity Auto Translator解决Unity游戏本地化难题 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 1突破语言壁垒&#xff1a;游戏翻译的核心挑战与解决方案 想象你正在体验一款热门的日本RPG游戏&a…

作者头像 李华