news 2026/1/25 12:54:40

阿里WebSailor开源:打破开源智能体天花板,多项核心指标逼近闭源系统

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
阿里WebSailor开源:打破开源智能体天花板,多项核心指标逼近闭源系统

阿里WebSailor开源:打破开源智能体天花板,多项核心指标逼近闭源系统

【免费下载链接】WebSailor-3B项目地址: https://ai.gitcode.com/hf_mirrors/Alibaba-NLP/WebSailor-3B

智东西7月8日消息,阿里巴巴通义实验室于昨日正式对外开源新一代网络智能体WebSailor,该系统在三大权威评测基准中创下开源领域最佳成绩,成为全球首个在高难度网页任务中接近闭源方案能力水平的开源智能体。WebSailor具备在开放网络环境中自主导航、多源信息整合及复杂逻辑推理的能力,特别适用于解决路径模糊、信息分散的高难度检索任务。其技术报告于7月3日登上Hugging Face Papers日热度榜首,相关模型代码、训练方法及评测数据集已同步在Gitcode开源(仓库地址:https://gitcode.com/hf_mirrors/Alibaba-NLP/WebSailor-3B)。

作为新一代网络智能体的代表,WebSailor展现出惊人的任务处理能力。该智能体能够模拟人类浏览网页的行为,通过自主跳转页面来收集所需信息,并对这些信息进行整合与推理,最终给出准确的答案。这种能力使得WebSailor在面对复杂的检索任务时,表现得游刃有余。无论是处理需要多步判断的问题,还是应对信息来源分散的情况,WebSailor都能够凭借其强大的自主导航和信息整合能力,高效地完成任务。

一、三大评测基准创佳绩,开源领域实现断层领先 WebSailor-72B大模型在国际权威评测中表现抢眼,在BrowseComp-en、BrowseComp-zh和GAIA信息检索子集分别取得12.0%、30.1%和55.4%的优异成绩。其中BrowseComp评测集由OpenAI精心设计,包含1266个高难度网页检索任务,全面考察智能体的搜索策略、信息筛选、多源整合及逻辑推理综合能力。测试结果显示,WebSailor不仅大幅超越DeepSeek R1等主流开源方案,更在多个核心指标上首次实现对Grok-3、Doubao-Search等闭源系统的逼近。值得关注的是,该模型在专注高难度任务训练的同时,仍保持了对基础问答任务的强大泛化能力——在SimpleQA基础问答子集测试中,WebSailor-72B以93.5%的准确率领先WebDancer、WebThinker等一众开源智能体。

这一系列成绩的取得,充分证明了WebSailor在网络智能体领域的领先地位。它不仅在高难度任务中展现出卓越的能力,还在基础问答任务中保持了较高的准确率,体现了其强大的综合性能。这种性能上的优势,使得WebSailor在众多开源智能体中脱颖而出,成为了该领域的佼佼者。

二、创新后训练体系,攻克复杂推理难题 WebSailor的核心技术突破源于其独创的三段式后训练框架,通过数据生成、冷启动调优与强化学习的有机结合,实现智能体复杂任务处理能力的跨越式提升:

  1. 高不确定性任务合成技术 通义实验室构建了包含10万+样本的SailorFog-QA专用训练集,创新性地采用"网页随机游走"技术模拟人类浏览行为,在真实互联网环境中构建动态知识图谱。通过图结构深度采样与信息模糊化处理,人为制造路径非线性、起点不确定的多跳推理任务,显著提升训练数据的复杂度与不确定性。这种数据生成方式,使得WebSailor在训练过程中能够接触到各种复杂的情况,从而提高了其在实际应用中的应对能力。

  2. 专家路径压缩微调(RFT) 基于Qwen-2.5系列基础模型(涵盖3B至72B全尺寸),通过专家决策路径的结构化压缩与推理步骤显式化重构,大幅增强智能体在复杂任务中的轨迹可控性。这种微调方法有效解决了传统智能体在多步骤推理中常见的路径漂移问题,使模型能够更稳定地执行复杂指令。通过这种方式,WebSailor能够更好地理解和执行复杂的任务指令,提高了任务的完成质量和效率。

  3. 双阶段强化学习算法DUPO WebSailor创新性地提出Duplicating Sampling Policy Optimization(DUPO)强化学习框架,采用动态任务采样策略:在训练初期自动过滤简单任务,集中资源攻克高难度轨迹;训练中期实施困难样本重复采样机制,实现关键能力的精准强化。该算法使复杂任务训练效率提升2-3倍,同时有效避免模型陷入局部最优解。这种高效的强化学习算法,为WebSailor的性能提升提供了有力的支持。

三、构建Web智能体技术矩阵,引领开源生态发展 WebSailor是阿里巴巴通义实验室Web智能体技术路线图的第三款里程碑产品:2025年1月发布的WebWalker聚焦评测体系建设,构建了首个标准化网页智能体评估基准;5月推出的WebDancer重点突破自主检索策略学习,强化多源信息搜集能力;本次发布的WebSailor则实现了任务构建、策略优化与强化学习的全流程创新。通义实验室表示,未来将持续完善"浏览器原生智能体"技术框架,重点拓展跨模态信息处理与长周期任务规划能力。

从WebWalker到WebDancer,再到如今的WebSailor,阿里巴巴通义实验室在Web智能体领域的技术积累不断深化。每一款产品的发布,都在前一款产品的基础上进行了创新和改进,形成了一个完整的技术矩阵。这种技术上的不断进步,不仅推动了Web智能体技术的发展,也为开源生态的繁荣做出了重要贡献。

结语:开源智能体迈向实用化临界点 WebSailor通过创新的数据构建方法、精细化调优策略和高效强化学习算法,成功突破开源智能体在复杂网络任务中的性能瓶颈。尽管与闭源系统仍存在一定差距,但其在高难度检索任务中展现的接近商业系统的能力,标志着开源网络智能体正从学术研究走向实际应用。随着技术框架的持续完善和开源生态的协同发展,WebSailor有望成为企业级智能检索系统的标准化基础组件,推动智能体技术在垂直领域的规模化落地。

WebSailor的开源,为整个行业带来了新的机遇和挑战。它不仅为开发者提供了一个强大的工具,也为智能体技术的发展指明了方向。相信在不久的将来,随着WebSailor技术的不断完善和开源生态的不断壮大,智能体技术将会在更多的领域得到应用,为人们的生活和工作带来更多的便利。

【免费下载链接】WebSailor-3B项目地址: https://ai.gitcode.com/hf_mirrors/Alibaba-NLP/WebSailor-3B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/22 20:13:58

突破语音合成边界:微软VibeVoice-1.5B技术深度剖析与实践指南

突破语音合成边界:微软VibeVoice-1.5B技术深度剖析与实践指南 【免费下载链接】VibeVoice-1.5B 项目地址: https://ai.gitcode.com/hf_mirrors/microsoft/VibeVoice-1.5B 在语音合成技术领域,传统文本转语音(TTS)系统长期…

作者头像 李华
网站建设 2026/1/23 2:37:25

10、MySQL、邮件服务与企业应用实践

MySQL、邮件服务与企业应用实践 数据库选择依据 在设计不同类型的应用时,数据库的选择至关重要。对于人力资源应用,由于数据具有关系性,如员工的姓名、社保号码、工资等相关信息,选择关系型数据库是合适的。而对于多媒体应用,像照片、视频和艺术作品等,对象数据库更为流…

作者头像 李华
网站建设 2026/1/25 12:04:48

21、BIND与DHCP在DNS中的应用详解

BIND与DHCP在DNS中的应用详解 1. 反向查找区域文件 在示例反向查找区域文件中,存在一个针对网络 10.1.1.0/24 的反向区域。 $ORIGIN 指令是可选的,但它能让区域文件更易读,该指令主要用于补全未完全限定的资源记录(RRs)。例如,当使用IP地址 10.1.1.[1,2,6] 时, …

作者头像 李华
网站建设 2026/1/25 1:01:40

27、Linux 系统故障排查与性能优化指南

Linux 系统故障排查与性能优化指南 1. 进程排查工具——ps 命令 在排查进程相关问题时, ps 命令非常实用。以下是几个常见的 ps 命令选项及示例: - 查看进程运行时间 :可以帮助解决内存耗尽问题。例如,查看 init 和 rsyslog 进程的运行时间: $ ps -eo pid,c…

作者头像 李华
网站建设 2026/1/23 5:04:01

mysql的列为什么要设置not null default ‘‘?

1.如果不设置,那么会出现空字符串和null一起存在的现象 2.如果这个字段是索引,那么会为空字符串和null都存储在二级索引中 3.存储占用更多的二级索引空间,还需要考虑null值查询的特殊处理 4.没有空字符串等值查询效率高,如果设置n…

作者头像 李华
网站建设 2026/1/25 5:12:08

41、树莓派硬件接口与软件应用全解析

树莓派硬件接口与软件应用全解析 1. Gertboard编程 Gertboard编程与底层Arduino代码颇为相似,都是直接对内存映射的输入输出(IO)进行操作,这就要求具备汇编程序员的精细技能。以下是一段示例代码: PWMCLK_DIV = 0x5A000000 | (32<<12); PWMCLK_CNTL = 0x5A0000…

作者头像 李华