news 2026/4/15 7:20:30

豆包手机为什么会被其他厂商抵制?它的工作原理是什么?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
豆包手机为什么会被其他厂商抵制?它的工作原理是什么?

之所以会想写这个,首先是因为在知乎收到了这个推荐的问题,实际上不管是 AutoGLM 还是豆包 AI 手机,会在这个阶段被第三方厂商抵制并不奇怪,比如微信和淘宝一直以来都很抵制这种外部自动化操作,而非这次中兴的 AI 豆包手机出来才抵制,毕竟以前搞过微信自动化客服应该都知道,一不小心就会被封号。

另外也是刚好看到, B 站的 UP 主老戴深入分析了豆包手机的内部工作机制的视频,视频介绍了从 AI 助手如何读取屏幕、捕捉数据和模拟操作的真实流程,所以对于 AI 手机又有了个更深刻的认知,在这个基础上,更不难理解为什么 AI 手机这种自动化 Agent 会被第三方厂商抵制,推荐大家看原视频:https://b23.tv/pftlDX8 。

那么豆包的 AI 手机是怎么工作的呢?实际上和大家想的可能不一样,它并没有使用无障碍服务(Accessibility Service),而是使用了更底层的实现方案

豆包手机利用底层的系统权限,直接从 GPU 缓冲区获取原始图像数据并注入输入事件,而非依赖截屏或无障碍服务,此外手机还在一个独立的虚拟屏幕中执行后台任务,并将图像低频发送至云端进行推理,云端则返回操作指令。

在视频里, UP 主通过深度拆解豆包手机,分析手机在系统层面的服务分工、数据抓取和模型推理路径,例如aikernel被 UP 主推断为手机端侧 AI 的核心进程,内存占用特性(Native堆高达160M)表明它可能是一个本地AI推理框架:

另外aikernel异常高的Binder数量,证明有大量外部进程通过 RPC 调用它,进一步印证了其系统级服务的角色 。

autoaction是豆包手机 AI 自动操作的关键,这个 APK 权限允许直接从 GPU 渲染的图形缓冲区读取数据,而不是通过上层截图:

而且目前看,豆包手机的 AI 能够捕获受保护的视频输出,这意味着它可以绕过银行 App 等应用的反截图/录屏限制,因为很多银行 App 很多是通过 DRM(数字版权管理) 或应用内安全设置来防止截屏和录屏:

另外,Agent 在操作手机过程也不是直接使用系统的 Accessibility Service ,而是通过调用系统隐藏APIinjectInputEvent来控制手机, AI 通过INJECT_EVENTS权限直接注入输入事件来模拟屏幕点击,权限高于无障碍 API,并且是系统签名:

同时,豆包手机在执行自动操作时,会利用一个与物理屏幕分辨率相同的“无头”虚拟屏幕在后台运行,且拥有独立的焦点,不影响用户在前台的操作,这其实就是内存副屏的概念, 虚拟屏幕的画面由 GPU 合成后,对应的缓冲区信息会直接被autoaction消费,再次证实 AI 无需通过截图 API 即可获取屏幕内容 :

最后,豆包手机在自动化操作时,会频繁地(每3到5秒)与obriccloud.com(字节的服务) 服务器通信,发送约 250K的单帧图片进行推理。

云端在接收图片后,会返回约 1K 的数据,内容是告诉手机下一步要执行的 7 种指令之一,如打开应用、点击、输入、滑动等等,整个自动化 Agent 的推理和路径规划主要在云端完成,云端思考后将执行步骤指令发回本地执行,本地任务很轻:

那么,这整个过程你看下来有什么感觉?如果你是第三方厂商,你会不会同样抵制这种数据收集和处理的行为?特别是绕过现有大家对系统 API 的理解,这种操作途径是否能被友商们接受?

所以目前的这种操作,被微信和淘宝抵制很正常,不管是隐私的边界,还有安全操作的规范,用户对于自己某个产品内容被收集的信息程度,这些都还处于蛮荒状态,数据安全和隐私的边界范围还不可控,并且 Agent 的托管行为,也明显侵犯到了友商们的利益链条

就像是 UP 主说的,AI Agent 的出现将动摇移动互联网的底层商业逻辑——注意力经济,使“注意力”这一硬通货的重要性降低 ,实际上换作另一个概念就是碎片化时间

以前你的碎片化时间都是被各种 App 消费了,比如广告和沉浸引导,但是 Agent 的出现,它明显将这部分时间给托管了,那么数据和时间都被 Agent 服务收集,对于友商们来说,不就是成了单纯的功能性服务商了吗?

另外,说实话像 AutoGLM 这种功能目前的支持,最大受益者不是用户而是灰产,不管是用诈骗还是黄牛,他们都是这种自动化下的第一受益者,所以规范和监管,特别是安全和隐私条款是必须,比如就像 UP 主说的:

豆包手机的 AI 在自动化操作过程中,哪些数据会被发送到云端服务器?

很多人对于 agent 和自动化能力的范畴并不理解,它们可以获取隐私的边界是什么,安全操作的规范是什么,这些都是需要支持和统一边界。

比如 Android 16 实际上官方是有规划 Appfunction Api 的,它的目的是让应用只公布自己开放给 AI 的能力,这样也许边界感更强。

当然,从历史的角度看,Agent 手机势不可挡,就像谷歌自己未来新的 Android PC 系统 Aluminium OS 也是会结合 Gemini Agent 等特点,这是历史进程的必然,但是这个过程中,如何统一规范和监管这是很重要的过程,毕竟 AI 的效应和能力,可比之前更加强,就像 UP 主说的,新的 AI 寡头可能会形成更中心化、更强势的权力,且马太效应更明显

那么,你觉得未来谁家的 Agent 设备会成为新时达的寡头?或者不是手机而是眼镜?

视频链接

https://b23.tv/pftlDX8

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/31 19:01:06

刚柔结合板的层压革命:三维互连中的应力协调与材料创新

刚柔结合板的层压技术是实现三维立体电路的关键突破,其核心挑战在于协调刚性区与柔性区的机械应力与热膨胀行为。传统工艺中,因刚性FR-4与柔性聚酰亚胺的CTE差异达120ppm/℃,界面分层风险高达25%。新一代层压技术通过材料改性与结构创新&…

作者头像 李华
网站建设 2026/4/4 9:03:21

探索C++20模板编程:YimMenuV2游戏菜单框架的极致艺术

探索C20模板编程:YimMenuV2游戏菜单框架的极致艺术 【免费下载链接】YimMenuV2 Unfinished WIP 项目地址: https://gitcode.com/GitHub_Trending/yi/YimMenuV2 在当今游戏开发领域,自定义菜单系统已成为提升用户体验的关键要素。今天我们要介绍的…

作者头像 李华
网站建设 2026/4/10 0:50:17

Python MMDetection 工具包详解及安全防护策略

MMDetection简介 Python的MMDetection(简称mmdet)是一款基于PyTorch的开源目标检测工具库,专注于AI目标检测模型的训练与推理任务,为开发者提供了丰富的算法支持和便捷的使用接口。 MMDetection的使用指南 安装mmdet 1.安装CUDA&a…

作者头像 李华
网站建设 2026/4/14 22:22:41

ffmpeg合并视频

1.查看ffmpeg支持那些过滤器ffmpeg -filters要查看是否支持转场的过滤器的命令ffmpeg -filters | grep xfadexfade命令是ffmpeg5版本才有的功能2.合并视频并在视频之间添加转场效果a.合并两个视频ffmpeg -i https://qiniu.heyincloud.cn/creator/mix_cut/coffee/ba1h9c002.mp4 …

作者头像 李华
网站建设 2026/4/11 14:49:25

基于SpringBoot+vue的人口老龄化社区服务与管理平台

1. 演示地址 后台:http://springboot54r3f.xiaobias.com/springboot54r3f/admin/dist/index.html 前台:http://springboot54r3f.xiaobias.com/springboot54r3f/front/index.html 管理员:abo/abo 用户:用户1/123456、用户2/123456 …

作者头像 李华
网站建设 2026/4/1 1:33:53

从阅读到写作:构建你的全流程学术生产力工具箱

当文献阅读的效率遇上AI深度理解,当论文写作的困难遇上智能化辅助,科研生产力的变革正在悄然发生。在学术界深耕多年,我深刻理解研究者面临的真实困境:文献堆积如山却无暇精读,研究思路涌现却难以落笔成文。近期一项对…

作者头像 李华