腾讯POINTS-GUI-G:重新定义GUI元素精准定位
【免费下载链接】POINTS-GUI-G项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-GUI-G
导语:腾讯最新发布的POINTS-GUI-G模型,凭借在多平台GUI元素定位任务中的突破性表现,为智能交互系统与自动化测试领域带来技术革新。
行业现状:随着智能设备与应用场景的多元化,图形用户界面(GUI)已成为人机交互的核心载体。据Gartner预测,到2027年,70%的企业应用将依赖自动化GUI交互技术提升效率。当前主流视觉语言模型虽具备图像理解能力,但在GUI元素精确定位(如按钮坐标提取、界面控件识别)任务中仍存在精度不足、跨平台适配性差等问题,尤其在复杂布局与多设备场景下表现受限。
产品/模型亮点:作为专注于GUI元素定位的多模态模型,POINTS-GUI-G展现出三大核心优势:
首先是卓越的跨平台定位精度。该模型在四大权威GUI基准测试中刷新纪录:ScreenSpot-Pro数据集达59.9分,OSWorld-G数据集66.0分,ScreenSpot-v2数据集95.7分,UI-Vision数据集49.9分,全面超越现有开源及闭源模型。
其次是全栈技术体系构建。不同于基于Qwen3-VL等已有强视觉基础模型的二次开发,POINTS-GUI-G基于原生不具备定位能力的POINTS-1.5模型从零构建,验证了通用基础模型通过定向优化可成长为GUI领域专家的技术路径。
最后是精细化数据工程。针对GUI数据标注中坐标系混乱、任务格式异构、噪声标注等行业痛点,腾讯团队构建了统一数据处理 pipeline:将所有坐标标准化至[0,1]范围,将多任务格式统一为"定位UI元素"指令,通过自动化过滤与合成难例提升模型鲁棒性。
这张性能对比图直观展示了POINTS-GUI-G-8B在各权威测试集上的领先优势,特别是在ScreenSpot-v2数据集上达到95.7分的高精度,印证了其在标准界面场景下的定位可靠性。对于开发者而言,这些量化指标为技术选型提供了关键参考。
在实际应用中,POINTS-GUI-G展现出强大的跨场景适应能力。无论是桌面应用的复杂菜单、移动端的触控界面,还是网页端的动态元素,模型均能精准识别用户指令对应的GUI元素位置。例如在网页界面中,面对"关闭当前窗口"、"点击搜索按钮"等自然语言指令,模型可输出归一化坐标,直接驱动自动化操作。
该组截图展示了POINTS-GUI-G可处理的典型应用场景,包括代码托管平台、移动应用商店和办公软件界面。这些复杂界面包含丰富的交互元素,模型能准确解析并定位目标控件,为自动化测试、无障碍辅助等场景提供技术支撑。
行业影响:POINTS-GUI-G的推出将加速人机交互智能化进程。在软件测试领域,其高精度定位能力可将GUI自动化测试的脚本生成效率提升300%;在无障碍技术领域,可为视障用户提供实时界面元素定位导航;在智能座舱场景中,能实现语音指令到车载界面控件的精准映射。随着模型的开源部署,预计将催生一批基于GUI理解的创新应用,推动交互范式从"人适应界面"向"界面适应人"转变。
结论/前瞻:作为GUI定位领域的技术突破,POINTS-GUI-G不仅展现了腾讯在多模态模型领域的技术实力,更构建了从通用基础模型到垂直领域专家的完整技术路径。随着端到端GUI智能体的研发推进,未来用户有望通过自然语言实现跨平台、跨应用的无缝交互,真正实现"所想即所得"的智能交互体验。对于企业而言,及早布局基于该技术的应用开发,将在智能化转型中获得先发优势。
【免费下载链接】POINTS-GUI-G项目地址: https://ai.gitcode.com/tencent_hunyuan/POINTS-GUI-G
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考