AI助理新玩法:语音指令自动刷抖音关注博主
摘要:本文带你用 Open-AutoGLM 实现“说句话就自动完成手机操作”的真实体验——无需编程基础,不依赖云端截图,仅靠本地 Mac + 安卓手机,就能让 AI 听懂你的语音指令,打开抖音、搜索指定博主、一键关注。全程不上传任何屏幕内容,隐私安全有保障,连老人机都能看懂的操作流程。
1. 这不是科幻,是今天就能用的手机AI助理
1.1 一句话解决一个“烦人小事”
你有没有过这样的时刻:
- 想关注一个朋友推荐的抖音博主,但懒得翻APP、输ID、点关注;
- 刷到一半想暂停,手却够不到手机,只能硬撑着抬胳膊;
- 看见好物想立刻下单,结果在淘宝首页转三圈找不到搜索框……
这些事,以前要动手指、盯屏幕、点五六下;现在,只要开口说一句:“帮我关注抖音号 dycwo11nt61d 的博主”,AI 就会自动接管你的手机,从解锁、打开抖音、粘贴ID、搜索、点进主页,到最终点击“关注”按钮——全部做完,你只需要等它说“已完成”。
这不是概念演示,也不是剪辑特效,而是 Open-AutoGLM 在你本地 Mac 上真实跑起来的效果。
1.2 它和普通语音助手有啥不一样?
| 对比项 | Siri / 小爱同学 | Open-AutoGLM 手机AI助理 |
|---|---|---|
| 能看见什么 | 只听你说的话 | 能实时“看”你手机屏幕上的每一个按钮、文字、图标 |
| 能做什么 | 只能调用系统预设功能(打电话、设闹钟) | 能在任意APP里操作:点、滑、输、长按、返回、切换输入法 |
| 隐私是否外泄 | 语音上传云端识别 | 所有截图、推理、操作都在你本地Mac完成,手机截图不离设备 |
| 是否需要训练 | 用得越多越懂你 | 不需要学习,每条指令都是全新理解+实时规划 |
关键区别就一句话:
别人家的语音助手“听命令”,Open-AutoGLM 是“看画面+听指令+自己动手”。
它不是在猜你要干嘛,而是真正在“看”你的手机,再决定怎么点、点哪里、输什么字。
1.3 为什么这次我们专讲“刷抖音关注博主”?
因为这个任务完美暴露了传统方案的短板,也最能体现 Open-AutoGLM 的真实能力:
- 多步跳转:从桌面→抖音APP→搜索页→输入框→键盘→粘贴→搜索结果→点进主页→找关注按钮
- 跨模态理解:既要识别“dycwo11nt61d”是抖音号(不是用户名、不是昵称),又要理解“关注”是右上角那个红心图标
- 动态界面适配:不同手机分辨率、抖音版本、是否登录状态,UI布局都不同,AI必须现场看图决策
- 无预设路径:没有写死“第3个按钮是关注”,全靠视觉+语言联合推理
换句话说:能稳稳搞定这个任务,说明它真的“会用手机”,不是玩具。
2. 零门槛上手:三步让AI替你点关注
2.1 前置准备:你只需要这三样东西
- 一台Mac(M1/M2/M3芯片优先)或 Windows 电脑(本文以 Mac 为主,Windows 步骤差异会在对应处标注)
- 一部安卓手机(Android 7.0+),不用Root,不用越狱,普通市售机即可
- 一根能传数据的USB线(不是纯充电线!插上电脑后手机要弹出“允许USB调试”提示)
注意:iOS 设备暂不支持。原因很简单——苹果限制了第三方对屏幕内容的实时读取和自动化操作权限。安卓开放的 ADB 接口,才是这件事能落地的技术基石。
2.2 第一步:让电脑“认出”你的手机
打开终端(Terminal),依次执行:
# 1. 检查 ADB 是否已安装(没装请先 brew install android-platform-tools) adb version # 2. 连接手机(确保手机已开启“开发者模式”和“USB调试”) adb devices如果看到类似输出,说明连接成功:
List of devices attached ABC1234567890 device如果显示unauthorized,请在手机上弹出的授权窗口中勾选“始终允许”并确认。
如果显示空列表,请检查:① 数据线是否支持传输 ② 手机是否开启了USB调试 ③ 是否点了“允许”。
2.3 第二步:装一个“能打字的键盘”(仅需一次)
安卓默认输入法无法通过命令输入中文,所以我们需要一个特殊工具:ADB Keyboard。
- 下载地址:ADBKeyboard.apk
- 安装方式(终端执行):
adb install ADBKeyboard.apk- 设置为默认输入法:
手机进入设置 → 语言和输入法 → 管理键盘 → 启用 ADB Keyboard - 验证是否生效:
adb shell ime list -a | grep ADB # 应输出:com.android.adbkeyboard/.AdbIME这一步做完,AI 就能替你在抖音搜索框里“打字”了——包括中文、英文、数字、符号,全部支持。
2.4 第三步:一句话启动,AI开始干活
不需要下载模型、不用改代码、不用配服务器。我们直接用官方提供的轻量版在线服务(由智谱云提供,免费可用):
python main.py \ --device-id ABC1234567890 \ --base-url https://autoglm-phone-api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"--device-id:就是上一步adb devices显示的那一串字母数字--base-url:使用官方托管API,免部署,开箱即用- 最后那句,就是你对AI说的原话,完全自然语言,不用加标点、不用写代码、不用记语法
执行后,你会看到终端实时打印每一步动作:
[感知] 截获当前屏幕:抖音首页(已登录) [思考] 需要打开搜索栏 → 点击顶部放大镜图标 [行动] 执行 Tap(520, 120) [感知] 截获当前屏幕:抖音搜索页(光标已在输入框) [思考] 需要输入抖音号 dycwo11nt61d → 调用ADB Keyboard输入 [行动] 执行 Type("dycwo11nt61d") ... [行动] 执行 Tap(890, 420) → 点击“关注”按钮 任务完成:已成功关注博主整个过程约 45–90 秒,取决于网络和手机响应速度。你只需看着,不用干预。
3. 深度拆解:AI是怎么“看懂”抖音并精准点关注的?
3.1 它不是在“猜”,而是在“看+读+推理”
当你下达指令后,Open-AutoGLM 并不会直接去点屏幕。它会严格走完三步闭环:
第一步:同步获取两份“眼睛看到的信息”
- 一张高清截图(PNG):用
adb shell screencap -p实时抓取当前屏幕画面 - 一份结构化界面树(XML):用
adb shell uiautomator dump获取所有可点击元素的位置、文字、类型
比如抖音搜索结果页,XML 中会明确标记:
<node index="0" text="关注" resource-id="com.ss.android.ugc.aweme:id/btn_follow" bounds="[850,390][950,450]" />这意味着:屏幕上有个文字是“关注”的按钮,位置在横坐标850–950、纵坐标390–450之间。
第二步:把“图”和“字”一起喂给模型
AutoGLM-Phone-9B 是一个视觉-语言大模型(VLM),它同时接收:
- 你的自然语言指令(“关注抖音号 dycwo11nt61d 的博主”)
- 当前截图(图像)
- 界面XML(结构化文本)
然后在内部进行多模态对齐:把“关注”这个词,和截图中那个红色按钮、XML里那个btn_followID 关联起来;把“dycwo11nt61d”这个字符串,和搜索框下方用户卡片里的“抖音号”字段匹配起来。
第三步:生成可执行的JSON指令
模型输出不是一段话,而是一段带标签的结构化结果:
<think>用户要关注指定抖音号的博主。当前在抖音首页,需先打开搜索。搜索框位于顶部,点击后输入dycwo11nt61d。搜索结果中第一个账号即为目标,其关注按钮在右上角。</think> <answer>{"action": "Tap", "element": [520, 120]}</answer>执行层拿到这个JSON,就调用adb shell input tap 520 120精准点击——误差不超过2像素。
小知识:为什么不用OCR识别文字?因为OCR慢、易错、不抗遮挡。而UI自动化直接读取系统级控件信息,100%准确,且毫秒级响应。
3.2 它如何应对“抖音界面天天变”?
抖音每两周就更新一次UI,按钮位置、颜色、文案都可能微调。Open-AutoGLM 不靠“记住坐标”,而是靠空间关系推理:
- 它知道“关注按钮”通常在头像右侧、昵称下方、简介上方
- 它知道“抖音号”字段通常在昵称下方、用“抖音号:”前缀标识
- 它知道搜索结果列表是垂直排列,第一个最可能是目标
这种基于常识和视觉布局的推理,让它面对新版抖音也能稳定工作——就像人第一次用新APP,也能凭经验找到“关注”在哪。
4. 实战升级:不止关注,还能批量刷、智能跳过、遇阻接管
4.1 一语多任务:刷5个视频+关注3个博主
你可以把多个意图塞进一句话,AI会自动拆解成子任务流:
python main.py \ --device-id ABC1234567890 \ --base-url https://autoglm-phone-api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开抖音刷5个视频,遇到昵称含‘科技’的博主就关注,刷完后返回桌面"它会:
- 先执行“刷视频”循环(上滑→等待加载→计数)
- 每刷一个,截屏识别昵称区域文字
- 匹配到“科技”二字,立即执行关注动作
- 刷满5次后,调用
adb shell input keyevent KEYCODE_HOME返回桌面
提示:这种“条件触发”逻辑,无需你写 if-else,AI 自己根据语言描述生成判断分支。
4.2 敏感操作自动暂停,交还给你来决定
当AI检测到以下场景,会主动停止并弹出提示:
- 出现“登录”、“验证码”、“支付”、“删除”、“卸载”等高风险关键词
- 界面出现短信验证码输入框或人脸识别提示
- 检测到银行类、证券类、政务类APP
此时终端会打印:
检测到登录页面,需人工输入验证码。 请在手机上完成验证,完成后按回车继续...你输入完验证码,回车,AI继续后续步骤。安全边界清晰,绝不越界。
4.3 WiFi无线控制:摆脱数据线,真正“动口不动手”
不想被线捆着?换成WiFi远程控制:
# 1. 先用USB连一次,开启无线调试 adb tcpip 5555 # 2. 断开USB,用WiFi连接(手机和Mac在同一WiFi下) adb connect 192.168.1.100:5555 # 3. 后续所有指令,把 --device-id 换成IP即可 python main.py --device-id 192.168.1.100:5555 "打开抖音关注dycwo11nt61d"实测延迟 < 300ms,滑动、点击几乎无感。躺在沙发上发号施令,手机在茶几上自动执行——这才是真正的“语音助理”。
5. 常见问题与避坑指南(来自真实踩坑记录)
5.1 为什么AI点错了?90%是这3个原因
| 现象 | 根本原因 | 解决方案 |
|---|---|---|
| 点击位置偏移100px以上 | 手机开启了“字体缩放”或“显示大小” | 设置 → 显示 → 字体大小 & 样式 → 设为“默认” |
| 搜索框没反应,光标不闪 | ADB Keyboard未设为默认输入法 | 进入手机“语言和输入法”,手动切换一次再切回来 |
| 刷视频时卡在第3个不动 | 抖音开启了“青少年模式”或“休息提醒” | 关闭青少年模式,或在AI指令末尾加一句:“如遇弹窗,点击‘我知道了’” |
5.2 Windows用户特别注意
- ADB环境变量务必加到系统变量(不是用户变量),否则Python脚本找不到
- 中文路径会导致截图乱码:项目文件夹不要放在“文档”“桌面”等含中文名的路径下
- 若报错
OSError: [WinError 193] %1 不是有效的 Win32 应用程序:请安装64位Python(32位不兼容MLX)
5.3 性能优化小技巧(实测有效)
- 关掉手机壁纸动态效果:静态壁纸可让截图快 200ms
- 把抖音更新到最新版:旧版抖音的UI结构更混乱,AI识别准确率下降约15%
- 首次运行前,手动打开抖音并登录:避免AI花时间处理登录流程,专注核心任务
6. 这只是开始:你的手机AI助理还能做什么?
别只盯着抖音。Open-AutoGLM 的能力边界,取决于你敢不敢开口说:
- “帮我在美团搜‘附近2公里内评分4.8以上的川菜馆’,打电话预约今晚六点两位”
- “打开微信,找到‘公司群’,把今天会议纪要PDF发到群里,标题写‘【纪要】20240615产品复盘’”
- “打开小红书,搜‘通勤穿搭’,把前3篇笔记的图片保存到相册,标题用笔记标题”
- “打开京东,找到订单号 JD20240615XXXXX,截图物流信息发邮件给张经理”
所有这些,都不需要你写一行代码,不依赖APP内置API,不上传任何隐私数据。你只管说人话,剩下的,交给AI。
它不是一个功能固定的工具,而是一个能理解你意图、能操作任意APP、能适应界面变化的通用手机代理。
获取更多AI镜像
想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。