news 2026/4/23 11:38:19

苹果50年三个CEO,GUI Agent一年走完了从概念到开源

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
苹果50年三个CEO,GUI Agent一年走完了从概念到开源

苹果近日完成了成立以来第三次CEO交接:库克卸任,特努斯接班。三位掌门人,跨越半个世纪。

AI领域则是另一种节奏。特别是GUI Agent这个方向——让AI直接操作电脑图形界面,完成点击、输入、应用切换等操作——从一年前学术论文里的早期探索,到现在已经有可以在个人设备上实际使用的开源工具,推进速度相当快。

两种完全不同的时间尺度,但挺有意思的是,它们在Mac这个平台上有了交集。今天从这个角度聊一聊GUI Agent这一年的进展。

一年前的GUI Agent

2024年初,GUI Agent在学术界已经有了不少研究。当时的普遍状态是:模型可以完成一些简单的单步操作(比如点击某个按钮),但面对多步骤、跨应用的复杂任务时,成功率还不够理想。

主要的挑战集中在几个方面:模型对复杂界面布局的理解精度有限,缺少有效的错误恢复机制,以及高质量训练数据的积累不够充分。

这一年的变化

过去一年,GUI Agent领域的几个关键进展值得关注。

视觉理解能力的提升。视觉语言模型在屏幕截图理解方面有了明显进步,不再停留在"识别元素"的层面,而是能够理解界面元素之间的关系、当前操作的上下文、以及在整体任务流程中的位置。

训练范式的更新。从单纯的监督学习到引入强化学习,让模型可以通过不断尝试来优化操作策略,而不仅仅是模仿已有的操作轨迹。

端侧部署变得可行。模型压缩技术的进步,加上Apple Silicon等芯片在AI推理方面的性能提升,使得"在个人设备上跑GUI Agent"从理论走向了实践。

Mano-P:我们的实践

在这些技术趋势下,明略科技开源了 Mano-P——一个面向Mac的纯视觉驱动GUI Agent。

Mano-P的"纯视觉驱动"意味着它直接通过屏幕截图来理解界面,不依赖特定应用的API或系统接口。这样做的好处是通用性强,理论上能操作任何有图形界面的软件。全部运行在本地Mac上,数据不出设备。

评测数据

Mano-P 72B模型在OSWorld评测(GUI Agent领域的标准评测框架,在真实操作系统环境中测试跨应用任务能力)中准确率58.2%,目前排名第一。第二名为45.0%。

端侧性能

Mano-P 4B量化模型(w4a16)在M4 Pro芯片上的实测数据:

  • Prefill速度:476 tokens/s
  • Decode速度:76 tokens/s
  • 峰值内存占用:4.3GB

一台配备M4芯片和32GB内存的Mac即可运行。4.3GB的内存占用对32GB机型来说比较轻松,不影响其他应用的正常使用。

关键技术设计

训练框架:三阶段递进——SFT建立基础的GUI理解和操作映射能力,离线RL从历史数据中提炼操作策略,在线RL在真实环境中持续优化。三个阶段形成一个"模型能力提升 → 数据质量提升 → 模型进一步提升"的正向循环。

推理机制:think-act-verify循环。每执行一步操作后都截屏验证结果,发现异常则回到分析阶段重新规划。这个机制对多步骤长任务的稳定性帮助比较大。

量化方案:w4a16(4-bit权重 + 16-bit激活),在模型体积和推理精度之间取得平衡。

GUI Agent和Mac的交集

GUI Agent需要在用户的桌面环境中长时间运行,实时截屏、分析界面、执行操作。这类应用天然适合部署在用户自己的设备上——操作的是本地应用和文件,交互延迟低,数据也不需要离开设备。

而Mac在最近几年的芯片迭代中,AI推理能力有了实质性的提升。过去做AI开发几乎只能选择Windows加NVIDIA GPU的组合,现在随着Apple Silicon性能的增长和MLX等开发框架的完善,Mac正在成为一个可以认真考虑的AI部署平台。

对于习惯使用Mac的开发者来说,能在自己的日常工作设备上直接运行AI Agent,不需要额外的硬件投入,这是一个比较实际的选择。

了解更多

Mano-P基于Apache 2.0协议开源。

brew tap HanningWang/tap&&brewinstallmano-cua

GitHub:Mininglamp-AI/Mano-P

硬件要求:Apple M4 + 32GB RAM。

欢迎感兴趣的开发者到GitHub上了解更多,也欢迎在评论区交流你对GUI Agent方向的看法。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:38:18

DoL-Lyra:让Degrees of Lewdity游戏美化的复杂问题变得简单

DoL-Lyra:让Degrees of Lewdity游戏美化的复杂问题变得简单 【免费下载链接】DOL-CHS-MODS Degrees of Lewdity 整合 项目地址: https://gitcode.com/gh_mirrors/do/DOL-CHS-MODS 你是否曾经因为游戏美化包的安装而头疼不已?不同MOD之间的冲突、繁…

作者头像 李华
网站建设 2026/4/23 11:29:17

WSL2里跑Docker服务,如何让局域网小伙伴也能访问?保姆级避坑指南

WSL2中Docker服务局域网共享全攻略:从端口暴露到防火墙调优 在本地开发环境中,WSL2已经成为许多开发者的首选工具链组件,它完美融合了Linux的高效命令行与Windows的图形界面优势。但当我们需要将WSL2中运行的Docker服务(如Web应用…

作者头像 李华
网站建设 2026/4/23 11:24:27

告别闪烁!用STM32F103RCT6定时器驱动3641BS数码管,5分钟搞定动态显示

STM32F103RCT6定时器驱动3641BS数码管:告别闪烁的终极方案 刚接触STM32的开发者常常会遇到一个令人头疼的问题——数码管显示时的闪烁现象。这种闪烁不仅影响用户体验,还可能掩盖真正需要显示的信息。传统解决方案依赖delay函数进行动态扫描,…

作者头像 李华