news 2026/5/13 13:24:06

腾讯POINTS-GUI-G:重新定义GUI元素精准定位

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
腾讯POINTS-GUI-G:重新定义GUI元素精准定位

腾讯POINTS-GUI-G:重新定义GUI元素精准定位

【免费下载链接】POINTS-GUI-G项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-GUI-G

导语:腾讯最新发布的POINTS-GUI-G模型,凭借在多平台GUI元素定位任务中的突破性表现,为智能交互系统与自动化测试领域带来技术革新。

行业现状:随着智能设备与应用场景的多元化,图形用户界面(GUI)已成为人机交互的核心载体。据Gartner预测,到2027年,70%的企业应用将依赖自动化GUI交互技术提升效率。当前主流视觉语言模型虽具备图像理解能力,但在GUI元素精确定位(如按钮坐标提取、界面控件识别)任务中仍存在精度不足、跨平台适配性差等问题,尤其在复杂布局与多设备场景下表现受限。

产品/模型亮点:作为专注于GUI元素定位的多模态模型,POINTS-GUI-G展现出三大核心优势:

首先是卓越的跨平台定位精度。该模型在四大权威GUI基准测试中刷新纪录:ScreenSpot-Pro数据集达59.9分,OSWorld-G数据集66.0分,ScreenSpot-v2数据集95.7分,UI-Vision数据集49.9分,全面超越现有开源及闭源模型。

其次是全栈技术体系构建。不同于基于Qwen3-VL等已有强视觉基础模型的二次开发,POINTS-GUI-G基于原生不具备定位能力的POINTS-1.5模型从零构建,验证了通用基础模型通过定向优化可成长为GUI领域专家的技术路径。

最后是精细化数据工程。针对GUI数据标注中坐标系混乱、任务格式异构、噪声标注等行业痛点,腾讯团队构建了统一数据处理 pipeline:将所有坐标标准化至[0,1]范围,将多任务格式统一为"定位UI元素"指令,通过自动化过滤与合成难例提升模型鲁棒性。

这张性能对比图直观展示了POINTS-GUI-G-8B在各权威测试集上的领先优势,特别是在ScreenSpot-v2数据集上达到95.7分的高精度,印证了其在标准界面场景下的定位可靠性。对于开发者而言,这些量化指标为技术选型提供了关键参考。

在实际应用中,POINTS-GUI-G展现出强大的跨场景适应能力。无论是桌面应用的复杂菜单、移动端的触控界面,还是网页端的动态元素,模型均能精准识别用户指令对应的GUI元素位置。例如在网页界面中,面对"关闭当前窗口"、"点击搜索按钮"等自然语言指令,模型可输出归一化坐标,直接驱动自动化操作。

该组截图展示了POINTS-GUI-G可处理的典型应用场景,包括代码托管平台、移动应用商店和办公软件界面。这些复杂界面包含丰富的交互元素,模型能准确解析并定位目标控件,为自动化测试、无障碍辅助等场景提供技术支撑。

行业影响:POINTS-GUI-G的推出将加速人机交互智能化进程。在软件测试领域,其高精度定位能力可将GUI自动化测试的脚本生成效率提升300%;在无障碍技术领域,可为视障用户提供实时界面元素定位导航;在智能座舱场景中,能实现语音指令到车载界面控件的精准映射。随着模型的开源部署,预计将催生一批基于GUI理解的创新应用,推动交互范式从"人适应界面"向"界面适应人"转变。

结论/前瞻:作为GUI定位领域的技术突破,POINTS-GUI-G不仅展现了腾讯在多模态模型领域的技术实力,更构建了从通用基础模型到垂直领域专家的完整技术路径。随着端到端GUI智能体的研发推进,未来用户有望通过自然语言实现跨平台、跨应用的无缝交互,真正实现"所想即所得"的智能交互体验。对于企业而言,及早布局基于该技术的应用开发,将在智能化转型中获得先发优势。

【免费下载链接】POINTS-GUI-G项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-GUI-G

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/9 5:52:02

Sonic 快速上手实战指南

Sonic 快速上手实战指南 【免费下载链接】sonic Simple library to speed up or slow down speech 项目地址: https://gitcode.com/gh_mirrors/sonic1/sonic Sonic 是一款专注于语音变速处理的轻量级工具库,核心功能包括实时语音加速、音质保持变速和跨平台音…

作者头像 李华
网站建设 2026/5/10 10:28:11

3步精通数据可视化工具:从环境配置到专业作品输出全攻略

3步精通数据可视化工具:从环境配置到专业作品输出全攻略 【免费下载链接】Infographic 🦋 An Infographic Generation and Rendering Framework, bring words to life with AI! 项目地址: https://gitcode.com/gh_mirrors/info/Infographic 数据可…

作者头像 李华
网站建设 2026/5/10 12:43:39

解锁C开发新效率:7个突破性功能带你精通RoslynPad代码编辑器

解锁C#开发新效率:7个突破性功能带你精通RoslynPad代码编辑器 【免费下载链接】roslynpad 项目地址: https://gitcode.com/gh_mirrors/ros/roslynpad RoslynPad是一款基于Roslyn编译器(微软开发的C#语法分析引擎)的跨平台代码编辑器&…

作者头像 李华
网站建设 2026/5/10 18:40:41

Counter-Strike 2 Demo Parser:技术探索者的游戏数据挖掘利器

Counter-Strike 2 Demo Parser:技术探索者的游戏数据挖掘利器 【免费下载链接】demoparser Counter-Strike 2 replay parser for Python and JavaScript 项目地址: https://gitcode.com/gh_mirrors/de/demoparser 在电竞数据分析的前沿领域,CS2 d…

作者头像 李华
网站建设 2026/5/11 7:56:14

零代码AI量化投资平台实战指南:从策略构建到风险控制的完整路径

零代码AI量化投资平台实战指南:从策略构建到风险控制的完整路径 【免费下载链接】qlib Qlib 是一个面向人工智能的量化投资平台,其目标是通过在量化投资中运用AI技术来发掘潜力、赋能研究并创造价值,从探索投资策略到实现产品化部署。该平台支…

作者头像 李华
网站建设 2026/5/10 12:37:56

Windows系统优化与隐私保护设置:系统AI组件禁用完全指南

Windows系统优化与隐私保护设置:系统AI组件禁用完全指南 【免费下载链接】RemoveWindowsAI Force Remove Copilot and Recall in Windows 项目地址: https://gitcode.com/GitHub_Trending/re/RemoveWindowsAI 在数字化时代,Windows系统内置的AI功…

作者头像 李华