news 2026/2/10 17:51:27

AI助理新玩法:语音指令自动刷抖音关注博主

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI助理新玩法:语音指令自动刷抖音关注博主

AI助理新玩法:语音指令自动刷抖音关注博主

摘要:本文带你用 Open-AutoGLM 实现“说句话就自动完成手机操作”的真实体验——无需编程基础,不依赖云端截图,仅靠本地 Mac + 安卓手机,就能让 AI 听懂你的语音指令,打开抖音、搜索指定博主、一键关注。全程不上传任何屏幕内容,隐私安全有保障,连老人机都能看懂的操作流程。


1. 这不是科幻,是今天就能用的手机AI助理

1.1 一句话解决一个“烦人小事”

你有没有过这样的时刻:

  • 想关注一个朋友推荐的抖音博主,但懒得翻APP、输ID、点关注;
  • 刷到一半想暂停,手却够不到手机,只能硬撑着抬胳膊;
  • 看见好物想立刻下单,结果在淘宝首页转三圈找不到搜索框……

这些事,以前要动手指、盯屏幕、点五六下;现在,只要开口说一句:“帮我关注抖音号 dycwo11nt61d 的博主”,AI 就会自动接管你的手机,从解锁、打开抖音、粘贴ID、搜索、点进主页,到最终点击“关注”按钮——全部做完,你只需要等它说“已完成”。

这不是概念演示,也不是剪辑特效,而是 Open-AutoGLM 在你本地 Mac 上真实跑起来的效果。

1.2 它和普通语音助手有啥不一样?

对比项Siri / 小爱同学Open-AutoGLM 手机AI助理
能看见什么只听你说的话能实时“看”你手机屏幕上的每一个按钮、文字、图标
能做什么只能调用系统预设功能(打电话、设闹钟)能在任意APP里操作:点、滑、输、长按、返回、切换输入法
隐私是否外泄语音上传云端识别所有截图、推理、操作都在你本地Mac完成,手机截图不离设备
是否需要训练用得越多越懂你不需要学习,每条指令都是全新理解+实时规划

关键区别就一句话:
别人家的语音助手“听命令”,Open-AutoGLM 是“看画面+听指令+自己动手”。

它不是在猜你要干嘛,而是真正在“看”你的手机,再决定怎么点、点哪里、输什么字。

1.3 为什么这次我们专讲“刷抖音关注博主”?

因为这个任务完美暴露了传统方案的短板,也最能体现 Open-AutoGLM 的真实能力:

  • 多步跳转:从桌面→抖音APP→搜索页→输入框→键盘→粘贴→搜索结果→点进主页→找关注按钮
  • 跨模态理解:既要识别“dycwo11nt61d”是抖音号(不是用户名、不是昵称),又要理解“关注”是右上角那个红心图标
  • 动态界面适配:不同手机分辨率、抖音版本、是否登录状态,UI布局都不同,AI必须现场看图决策
  • 无预设路径:没有写死“第3个按钮是关注”,全靠视觉+语言联合推理

换句话说:能稳稳搞定这个任务,说明它真的“会用手机”,不是玩具。


2. 零门槛上手:三步让AI替你点关注

2.1 前置准备:你只需要这三样东西

  • 一台Mac(M1/M2/M3芯片优先)或 Windows 电脑(本文以 Mac 为主,Windows 步骤差异会在对应处标注)
  • 一部安卓手机(Android 7.0+),不用Root,不用越狱,普通市售机即可
  • 一根能传数据的USB线(不是纯充电线!插上电脑后手机要弹出“允许USB调试”提示)

注意:iOS 设备暂不支持。原因很简单——苹果限制了第三方对屏幕内容的实时读取和自动化操作权限。安卓开放的 ADB 接口,才是这件事能落地的技术基石。

2.2 第一步:让电脑“认出”你的手机

打开终端(Terminal),依次执行:

# 1. 检查 ADB 是否已安装(没装请先 brew install android-platform-tools) adb version # 2. 连接手机(确保手机已开启“开发者模式”和“USB调试”) adb devices

如果看到类似输出,说明连接成功:

List of devices attached ABC1234567890 device

如果显示unauthorized,请在手机上弹出的授权窗口中勾选“始终允许”并确认。
如果显示空列表,请检查:① 数据线是否支持传输 ② 手机是否开启了USB调试 ③ 是否点了“允许”。

2.3 第二步:装一个“能打字的键盘”(仅需一次)

安卓默认输入法无法通过命令输入中文,所以我们需要一个特殊工具:ADB Keyboard。

  • 下载地址:ADBKeyboard.apk
  • 安装方式(终端执行):
adb install ADBKeyboard.apk
  • 设置为默认输入法:
    手机进入设置 → 语言和输入法 → 管理键盘 → 启用 ADB Keyboard
  • 验证是否生效:
adb shell ime list -a | grep ADB # 应输出:com.android.adbkeyboard/.AdbIME

这一步做完,AI 就能替你在抖音搜索框里“打字”了——包括中文、英文、数字、符号,全部支持。

2.4 第三步:一句话启动,AI开始干活

不需要下载模型、不用改代码、不用配服务器。我们直接用官方提供的轻量版在线服务(由智谱云提供,免费可用):

python main.py \ --device-id ABC1234567890 \ --base-url https://autoglm-phone-api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开抖音搜索抖音号为:dycwo11nt61d 的博主并关注他!"
  • --device-id:就是上一步adb devices显示的那一串字母数字
  • --base-url:使用官方托管API,免部署,开箱即用
  • 最后那句,就是你对AI说的原话,完全自然语言,不用加标点、不用写代码、不用记语法

执行后,你会看到终端实时打印每一步动作:

[感知] 截获当前屏幕:抖音首页(已登录) [思考] 需要打开搜索栏 → 点击顶部放大镜图标 [行动] 执行 Tap(520, 120) [感知] 截获当前屏幕:抖音搜索页(光标已在输入框) [思考] 需要输入抖音号 dycwo11nt61d → 调用ADB Keyboard输入 [行动] 执行 Type("dycwo11nt61d") ... [行动] 执行 Tap(890, 420) → 点击“关注”按钮 任务完成:已成功关注博主

整个过程约 45–90 秒,取决于网络和手机响应速度。你只需看着,不用干预。


3. 深度拆解:AI是怎么“看懂”抖音并精准点关注的?

3.1 它不是在“猜”,而是在“看+读+推理”

当你下达指令后,Open-AutoGLM 并不会直接去点屏幕。它会严格走完三步闭环:

第一步:同步获取两份“眼睛看到的信息”
  • 一张高清截图(PNG):用adb shell screencap -p实时抓取当前屏幕画面
  • 一份结构化界面树(XML):用adb shell uiautomator dump获取所有可点击元素的位置、文字、类型

比如抖音搜索结果页,XML 中会明确标记:

<node index="0" text="关注" resource-id="com.ss.android.ugc.aweme:id/btn_follow" bounds="[850,390][950,450]" />

这意味着:屏幕上有个文字是“关注”的按钮,位置在横坐标850–950、纵坐标390–450之间。

第二步:把“图”和“字”一起喂给模型

AutoGLM-Phone-9B 是一个视觉-语言大模型(VLM),它同时接收:

  • 你的自然语言指令(“关注抖音号 dycwo11nt61d 的博主”)
  • 当前截图(图像)
  • 界面XML(结构化文本)

然后在内部进行多模态对齐:把“关注”这个词,和截图中那个红色按钮、XML里那个btn_followID 关联起来;把“dycwo11nt61d”这个字符串,和搜索框下方用户卡片里的“抖音号”字段匹配起来。

第三步:生成可执行的JSON指令

模型输出不是一段话,而是一段带标签的结构化结果:

<think>用户要关注指定抖音号的博主。当前在抖音首页,需先打开搜索。搜索框位于顶部,点击后输入dycwo11nt61d。搜索结果中第一个账号即为目标,其关注按钮在右上角。</think> <answer>{"action": "Tap", "element": [520, 120]}</answer>

执行层拿到这个JSON,就调用adb shell input tap 520 120精准点击——误差不超过2像素。

小知识:为什么不用OCR识别文字?因为OCR慢、易错、不抗遮挡。而UI自动化直接读取系统级控件信息,100%准确,且毫秒级响应。

3.2 它如何应对“抖音界面天天变”?

抖音每两周就更新一次UI,按钮位置、颜色、文案都可能微调。Open-AutoGLM 不靠“记住坐标”,而是靠空间关系推理

  • 它知道“关注按钮”通常在头像右侧、昵称下方、简介上方
  • 它知道“抖音号”字段通常在昵称下方、用“抖音号:”前缀标识
  • 它知道搜索结果列表是垂直排列,第一个最可能是目标

这种基于常识和视觉布局的推理,让它面对新版抖音也能稳定工作——就像人第一次用新APP,也能凭经验找到“关注”在哪。


4. 实战升级:不止关注,还能批量刷、智能跳过、遇阻接管

4.1 一语多任务:刷5个视频+关注3个博主

你可以把多个意图塞进一句话,AI会自动拆解成子任务流:

python main.py \ --device-id ABC1234567890 \ --base-url https://autoglm-phone-api.zhipuai.com/v1 \ --model "autoglm-phone-9b" \ "打开抖音刷5个视频,遇到昵称含‘科技’的博主就关注,刷完后返回桌面"

它会:

  • 先执行“刷视频”循环(上滑→等待加载→计数)
  • 每刷一个,截屏识别昵称区域文字
  • 匹配到“科技”二字,立即执行关注动作
  • 刷满5次后,调用adb shell input keyevent KEYCODE_HOME返回桌面

提示:这种“条件触发”逻辑,无需你写 if-else,AI 自己根据语言描述生成判断分支。

4.2 敏感操作自动暂停,交还给你来决定

当AI检测到以下场景,会主动停止并弹出提示:

  • 出现“登录”、“验证码”、“支付”、“删除”、“卸载”等高风险关键词
  • 界面出现短信验证码输入框或人脸识别提示
  • 检测到银行类、证券类、政务类APP

此时终端会打印:

检测到登录页面,需人工输入验证码。 请在手机上完成验证,完成后按回车继续...

你输入完验证码,回车,AI继续后续步骤。安全边界清晰,绝不越界。

4.3 WiFi无线控制:摆脱数据线,真正“动口不动手”

不想被线捆着?换成WiFi远程控制:

# 1. 先用USB连一次,开启无线调试 adb tcpip 5555 # 2. 断开USB,用WiFi连接(手机和Mac在同一WiFi下) adb connect 192.168.1.100:5555 # 3. 后续所有指令,把 --device-id 换成IP即可 python main.py --device-id 192.168.1.100:5555 "打开抖音关注dycwo11nt61d"

实测延迟 < 300ms,滑动、点击几乎无感。躺在沙发上发号施令,手机在茶几上自动执行——这才是真正的“语音助理”。


5. 常见问题与避坑指南(来自真实踩坑记录)

5.1 为什么AI点错了?90%是这3个原因

现象根本原因解决方案
点击位置偏移100px以上手机开启了“字体缩放”或“显示大小”设置 → 显示 → 字体大小 & 样式 → 设为“默认”
搜索框没反应,光标不闪ADB Keyboard未设为默认输入法进入手机“语言和输入法”,手动切换一次再切回来
刷视频时卡在第3个不动抖音开启了“青少年模式”或“休息提醒”关闭青少年模式,或在AI指令末尾加一句:“如遇弹窗,点击‘我知道了’”

5.2 Windows用户特别注意

  • ADB环境变量务必加到系统变量(不是用户变量),否则Python脚本找不到
  • 中文路径会导致截图乱码:项目文件夹不要放在“文档”“桌面”等含中文名的路径下
  • 若报错OSError: [WinError 193] %1 不是有效的 Win32 应用程序:请安装64位Python(32位不兼容MLX)

5.3 性能优化小技巧(实测有效)

  • 关掉手机壁纸动态效果:静态壁纸可让截图快 200ms
  • 把抖音更新到最新版:旧版抖音的UI结构更混乱,AI识别准确率下降约15%
  • 首次运行前,手动打开抖音并登录:避免AI花时间处理登录流程,专注核心任务

6. 这只是开始:你的手机AI助理还能做什么?

别只盯着抖音。Open-AutoGLM 的能力边界,取决于你敢不敢开口说:

  • “帮我在美团搜‘附近2公里内评分4.8以上的川菜馆’,打电话预约今晚六点两位”
  • “打开微信,找到‘公司群’,把今天会议纪要PDF发到群里,标题写‘【纪要】20240615产品复盘’”
  • “打开小红书,搜‘通勤穿搭’,把前3篇笔记的图片保存到相册,标题用笔记标题”
  • “打开京东,找到订单号 JD20240615XXXXX,截图物流信息发邮件给张经理”

所有这些,都不需要你写一行代码,不依赖APP内置API,不上传任何隐私数据。你只管说人话,剩下的,交给AI。

它不是一个功能固定的工具,而是一个能理解你意图、能操作任意APP、能适应界面变化的通用手机代理


获取更多AI镜像

想探索更多AI镜像和应用场景?访问 CSDN星图镜像广场,提供丰富的预置镜像,覆盖大模型推理、图像生成、视频生成、模型微调等多个领域,支持一键部署。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/6 3:16:36

YOLO11预测结果可视化,效果清晰可见

YOLO11预测结果可视化&#xff0c;效果清晰可见 YOLO11不是纸上谈兵的模型&#xff0c;它跑起来是什么样&#xff1f;检测框画得准不准&#xff1f;标签标得清不清楚&#xff1f;置信度显示得明不明白&#xff1f;这些答案&#xff0c;全藏在它的预测结果可视化里。本文不讲训…

作者头像 李华
网站建设 2026/2/8 3:04:59

手把手教程:基于ArduPilot的飞行控制参数调优

以下是对您提供的博文内容进行 深度润色与结构重构后的专业级技术教程文章 。全文严格遵循您的所有要求&#xff1a; ✅ 彻底去除AI痕迹&#xff0c;语言自然、有经验感、具教学节奏&#xff1b; ✅ 摒弃模板化标题&#xff08;如“引言”“概述”“总结”&#xff09;&…

作者头像 李华
网站建设 2026/2/3 23:14:32

简单粗暴:Qwen-Image-Edit-2511一键运行命令合集

简单粗暴&#xff1a;Qwen-Image-Edit-2511一键运行命令合集 你不需要看长篇原理&#xff0c;不用纠结参数含义&#xff0c;也不用反复试错——本文只做一件事&#xff1a;把能直接复制粘贴、按回车就能跑通 Qwen-Image-Edit-2511 的所有关键命令&#xff0c;全部列清楚。从拉…

作者头像 李华
网站建设 2026/2/8 20:13:18

RS485收发器选型指南:硬件电路设计核心要点

以下是对您提供的博文《RS485收发器选型指南&#xff1a;硬件电路设计核心要点深度解析》的 全面润色与优化版本 。本次优化严格遵循您的全部要求&#xff1a; ✅ 彻底去除AI痕迹&#xff0c;语言更贴近一线工程师真实表达&#xff1b; ✅ 摒弃“引言/概述/总结”等模板化结…

作者头像 李华
网站建设 2026/2/5 1:12:20

大电流整流电路中二极管散热设计指南

以下是对您提供的技术博文进行 深度润色与结构重构后的专业级技术文章 。全文已彻底去除AI痕迹&#xff0c;摒弃模板化表达&#xff0c;以一位深耕功率电子热设计十年的工程师口吻重写——语言更自然、逻辑更递进、细节更扎实、教学感更强&#xff0c;同时严格遵循您提出的全…

作者头像 李华
网站建设 2026/2/10 7:37:26

SBC驱动工业HMI的设计与优化方案

以下是对您提供的技术博文进行 深度润色与结构重构后的专业级技术文章 。全文已彻底去除AI痕迹&#xff0c;采用真实工程师口吻撰写&#xff0c;逻辑更连贯、语言更凝练、教学性更强&#xff0c;并严格遵循您提出的全部优化要求&#xff08;无模板化标题、无总结段落、无参考…

作者头像 李华