UI-TARS：AI自动操控GUI的突破之作-洪萨配资

导语：字节跳动最新发布的UI-TARS系列模型，通过创新的原生GUI代理架构，实现了AI对图形用户界面（GUI）的端到端自动化操控，标志着人机交互智能化进入新阶段。

【免费下载链接】UI-TARS-2B-SFT项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-2B-SFT

行业现状：GUI交互自动化的技术瓶颈

随着数字化办公和智能设备普及，图形用户界面（GUI）已成为人机交互的主要方式。传统自动化工具如脚本录制、规则引擎等，依赖预设流程和人工定义的元素定位，难以应对界面变化和复杂任务。近年来，多模态大模型虽在视觉理解上取得进展，但在"感知-推理-操作"全链路整合上仍存在割裂，导致实际应用中准确率和泛化能力不足。根据相关数据显示，企业级GUI自动化任务的平均成功率长期低于60%，成为制约办公自动化和智能运维效率提升的关键瓶颈。

UI-TARS：原生GUI代理的技术突破

UI-TARS（User Interface Task Automation and Reasoning System）作为新一代原生GUI代理模型，彻底重构了传统模块化框架的设计思路，将感知、推理、定位和记忆四大核心能力深度整合到单一视觉语言模型（VLM）中，实现了端到端的GUI任务自动化。

核心技术亮点

一体化架构设计：不同于传统框架的组件拼接，UI-TARS采用原生融合架构，使视觉理解、逻辑推理、元素定位和操作记忆在统一模型中协同工作，避免了模块间数据传递的损耗和延迟。这种设计使模型能像人类用户一样"看懂"界面并"思考"操作步骤。
跨场景通用能力：模型支持从移动设备、桌面应用到网页界面的全场景覆盖，在Mobile-Text、Desktop-Icon/Widget等多维度评估中均表现优异。其中UI-TARS-72B型号在ScreenSpot v2测试中，平均准确率达到90.3%，超过GPT-4o等主流模型30%以上。
离线全流程自动化：突破性实现无需外部工具调用的离线自主决策，在AndroidControl测试中，UI-TARS-72B的任务成功率达到91.3%，较行业平均水平提升50%以上，解决了传统方案依赖云端服务的响应延迟问题。

性能表现与对比优势

在官方公布的多维度评测中，UI-TARS系列展现出显著优势：

感知能力：UI-TARS-72B在VisualWebBench测试中获得82.8分，超越GPT-4o的78.5分和Claude-3.5-Sonnet的78.2分
元素定位：在ScreenSpot Pro综合评测中，UI-TARS-7B以35.7的平均分领先OS-Atlas-7B的18.9分和UGround-7B的16.5分
任务完成：在Multimodal Mind2Web跨任务评测中，UI-TARS-72B的操作准确率达92.5%，步骤成功率68.6%，均为当前最高水平