news 2026/4/25 16:48:18

OpenAI发布GPT-5.5,智能体编码超越Claude Opus 4.7

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
OpenAI发布GPT-5.5,智能体编码超越Claude Opus 4.7

维度网讯,OpenAI于当地时间4月23日正式发布全新旗舰大语言模型GPT-5.5,内部代号“Spud”,同步推出更高规格的GPT-5.5 Pro版本。这是自GPT-4.5以来OpenAI首个完全重新训练的基础模型,现已向ChatGPT和Codex的Plus、Pro、Business、Enterprise用户推送,API部署将在完成额外安全评估后上线。OpenAI联合创始人兼总裁格雷格·布罗克曼在发布会上称,该模型是“迄今为止最聪明、最直观的模型”,核心突破在于从“回答问题”向“自主完成工作”的根本性范式迁移。

GPT-5.5定位为人工智能进入“智能体时代”的标志性产品。布罗克曼表示,该模型的真正特别之处在于“更少的指令就能完成更多的工作,它可以分析一个不明确的问题并准确找出下一步该怎么做,真正为未来如何进行计算机工作奠定了基础”。OpenAI明确将GPT-5.5定位为“为真实工作和智能体驱动的新型智能”,能力增益集中在智能体编码、计算机使用、知识工作和早期科学研究四个领域。

GPT-5.5的编码能力提升最为显著。在衡量复杂命令行工作流的Terminal-Bench 2.0基准测试中,GPT-5.5达到82.7%,GPT-5.4为75.1%,Anthropic的Claude Opus 4.7为69.4%,谷歌的Gemini 3.1 Pro为68.5%,GPT-5.5较竞品领先超过13个百分点。OpenAI内部Expert-SWE评测中,面向人类预估中位完成时间20小时的长周期编程任务,GPT-5.5达到73.1%,较GPT-5.4的68.5%提升4.6个百分点。在OSWorld-Verified基准上,GPT-5.5达到78.7%,超越Claude Opus 4.7的78.0%。在评估44个职业知识工作能力的GDPval基准上,GPT-5.5取得84.9%,领先Claude Opus 4.7的80.3%和Gemini 3.1 Pro的67.3%。在衡量客服工作流的Tau2-bench Telecom基准上,GPT-5.5达到98.0%。值得注意的是,GPT-5.5在所有评测中均以更少的输出token完成,实现了“更强且更省”的突破。

效率方面,GPT-5.5在真实生产环境中维持与GPT-5.4相同的逐token延迟,同时完成相同Codex任务所需token显著减少。这一效率跃升得益于OpenAI与英伟达的深度合作——GPT-5.5与英伟达GB200、GB300 NVL72系统从设计之初即进行联合协同优化,部分启发式算法由人工智能自行编写,使token生成速度提升超过20%。在Artificial Analysis的Coding Agent Index上,GPT-5.5以60分拔得头筹,领先Claude Opus 4.7和Gemini 3.1 Pro Preview各3分,达到最高智能水平的同时成本仅为同级竞品的一半。

GPT-5.5 API定价为输入每百万token 5美元、输出每百万token 30美元,约为GPT-5.4价格的两倍;GPT-5.5 Pro则为每百万输入token 30美元、输出180美元。OpenAI声称输出token使用量下降了约40%,因此实际任务净成本较GPT-5.4仅上涨约20%。按同等智能水平换算,GPT-5.5可取得与Claude Opus 4.7相同的综合评分,而运行成本仅为其四分之一。在ChatGPT和Codex中,上下文窗口支持400K至1M token,Codex新增快速模式以2.5倍价格换取1.5倍生成速度。目前Codex周活跃用户已达400万人,较两周前的300万人增长约33%,OpenAI内部85%的员工每周使用Codex。

网络安全能力是GPT-5.5引发行业关注的另一焦点。GPT-5.5在安全公司XBOW的实战渗透测试基准中表现突出,GPT-5曾漏报40%的已知漏洞,Claude Opus 4.6降至18%,GPT-5.5进一步压缩至10%。在纯黑盒测试条件下,GPT-5.5的表现已超越GPT-5在提供源代码的白盒测试条件下的成绩。OpenAI将其在Preparedness Framework下评估为“High”安全风险等级,部署了迄今为止最严格的网络风险分类器和多重安全防护,对潜在恶意用途实施主动拦截,API较ChatGPT延迟上线亦因此考量。

GPT-5.5的发布正值前沿AI实验室竞争白热化之际。该模型距离GPT-5.4推出仅六周。Anthropic的Claude Mythos Preview虽在多数绝对基准上领先GPT-5.5,但Mythos采取严格受限发布策略,仅向约40家机构开放,API定价高达输入25美元/输出125美元,约是GPT-5.5的5倍。GPT-5.5选择向全量付费用户开放,以“前沿能力普惠化”策略形成与Anthropic差异化竞争。

在科学研究领域,GPT-5.5展现出显著增益。OpenAI首席研究官马克·陈表示,该模型在科学和技术研究工作流中取得了“有意义的突破”。在衡量多阶段遗传学数据分析的GeneBench基准上,GPT-5.5达到25.0%,GPT-5.5 Pro达到33.2%,较GPT-5.4的19.0%大幅提升。在FrontierMath Tier 4这一当前最难的数学基准测试上,GPT-5.5达到35.4%,GPT-5.5 Pro达到39.6%,超过Claude Opus 4.7的22.9%。

企业级市场正成为GPT-5.5的主战场。OpenAI披露,ChatGPT付费商业用户已达900万,每周活跃用户超9亿,付费订阅用户超5000万。纽约梅隆银行首席信息官Leigh-Ann Russell表示,GPT-5.5在响应质量和抗幻觉方面实现了阶跃式提升,该行正在超过220个人工智能应用场景中测试GPT-5.5。OpenAI内部财务团队已使用GPT-5.5审查了24771份K-1税表、总计71637页,较去年提前两周完成任务。布罗克曼确认,GPT-5.5将成为OpenAI正在构建的“超级应用”的核心引擎。从“对话工具”到“智能体引擎”的跃迁,正在重新定义人机协作的边界。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 16:45:20

【独家首发】VSCode 2026信创兼容性矩阵图谱(覆盖37个国产CPU/OS组合),仅限首批500名信创工程师下载——扫码即领离线诊断工具集

更多请点击: https://intelliparadigm.com 第一章:VSCode 2026信创兼容性全景概览 随着国产化替代进程加速,VSCode 2026 版本在信创生态中的适配能力已实现关键跃升。该版本原生支持龙芯3A5000/3C5000、飞腾D2000/FT-2000/S5000、鲲鹏920、海…

作者头像 李华
网站建设 2026/4/25 16:45:18

如何在5分钟内用Fillinger脚本彻底改变你的Illustrator填充工作流

如何在5分钟内用Fillinger脚本彻底改变你的Illustrator填充工作流 【免费下载链接】illustrator-scripts Adobe Illustrator scripts 项目地址: https://gitcode.com/gh_mirrors/il/illustrator-scripts 还在为复杂的图案填充耗费数小时吗?每次手动调整元素大…

作者头像 李华
网站建设 2026/4/25 16:44:25

量子投票:突破Arrow定理的社会选择新范式

1. 量子投票与Arrow定理:社会选择理论的量子突破在群体决策领域,社会选择理论一直面临一个根本性难题:如何设计公平、合理的投票系统?1951年,经济学家Kenneth Arrow用他著名的不可能定理证明,在经典投票框架…

作者头像 李华
网站建设 2026/4/25 16:42:54

结构化编程知识全景图:CodeFather如何帮你降本增效构建技术体系

1. 项目概述与核心价值最近在整理自己的技术知识库时,发现了一个非常值得分享的宝藏项目——CodeFather(编程宝典)。这不是一个普通的代码仓库,而是一个由知名技术博主“程序员鱼皮”倾力打造的、结构化的编程知识全景图。对于任何…

作者头像 李华
网站建设 2026/4/25 16:33:36

新派Web3白皮书

在我们眼中,什么是新派Web3的首要任务?自有计算主权与自我正和信念主权 新派Web3的首要任务是推动把包括AI在内的UGC从训练到所有权全栈归还给用户的生产关系技术革命,只有这样才能保证任何人的自我正和信念主权。自我正和信念主权是自我进步…

作者头像 李华