news 2026/4/15 15:35:39

大模型榜单周报(2025/12/20)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型榜单周报(2025/12/20)

1. 本周概览

本周大模型领域呈现显著变化,Google的Gemini 3 Flash模型系列表现突出,不仅在多个榜单新晋前列,还发布了新的高速低成本模型。OpenAI的GPT系列在编程和图像能力方面继续保持强势地位。xAI市场份额持续下降,而OpenAI份额则稳步上升。整体来看,新模型发布和性能优化仍是本周主要趋势。

2. 重点关注事件

  • OpenAI推出了其新一代图像模型 GPT Image 1.5,这一代模型具备更强的指令遵循,更精准的图像编辑,也能较好的保留细节,生成速度则来到上一代模型的4倍。目前屠榜了Artificial Analysis、LMArena 两大权威榜单。
  • Google本周发布了一系列新产品,包括高速、低成本模型 Gemini 3 Flash(该模型基于上个月发布的 Gemini 3,并被设为 Gemini 应用和搜索 AI 模式中的默认模型,目前在智能/成本上,成为了全球性价比最高的模型)和 T5Gemma 模型(首个多模态和长上下文的编码器-解码器模型,建立在 Gemma 3 的强大功能之上,使用了「适应(adaptation)」技术将已经完成预训练的仅解码器模型转换为编码器-解码器架构),进一步巩固了其在AI领域的领先地位。
  • 阿里通义万相 2.6 上线,成为国内首个具备角色扮演功能的视频模型。Wan 2.6 在模型结构上集成了多项创新技术,可对输入参考视频进行多模态联合建模与学习,参考具有时序信息的主体情绪、姿态和多角度全面视觉特征,同时提取音色、语速等声学特征,在生成阶段作为参考条件控制,实现从画面到声音的全感官全维度一致性保持与迁移。
  • 字节Seed本周也发布多项产品,推出了豆包视频生成模型Seedance 1.5 Pro(该模型采用了一套基于 MMDiT(Multi-Modal Diffusion Transformer) 的原生联合生成框架,它建立了一个双分支的DiT架构,通过深度跨模态信息交互机制,让视觉流和听觉流在潜在空间(Latent Space)里实时通信)和通用 Agent 模型 Seed1.8(具备强大的多模态能力,支持图文输入,能在信息检索、代码生成、GUI 交互及复杂工作流等场景中高效精准地完成任务,满足日益多元的技术需求)。

3. 榜单变化

模型调用量排名变化
  • Gemini 2.5 Flash 排名上升了 1 名到第 2,仅次于 Grok Code Fast 1
  • GPT-OSS-120B 排名上升了 1 名到第 4
  • DeepSeek V3.2 重回榜单前 10,位列第 8 名
公司市占率变化
  • Google 保持第 1 位置
  • OpenAI 在发布 GPT-5.2 之后市占率超过 xAI 来到第 2 位;Anthropic、DeepSeek 紧跟 xAI 之后
  • xAI 份额持续下降了(17.3% → 14.8%),三周内累计下降 22.9%
  • OpenAI 份额上升了 2.9%(14.8% → 17.7%)
编程调用量排名变化
  • Grok Code Fast 1 保持第 1 位置
  • GPT-5.2 跃升至第 2 位
  • Claude Sonnet 4.5、Claude Opus 4.5 排名第 3、4
  • MiniMax M2 排名保持第 5
  • Devstral 2 2512 排名由第 9 上升了 2 名
大语言模型(Text Arena)排名变化
  • gemini-3-flash 新晋榜单第 3 名
  • gemini-3-flash 的 thinking-minimal 版本排名榜单第 7
  • gpt-5.2-high 和 gpt-5.2 分别排名 15、17位
编程能力榜单(WebDev Arena)排名变化
  • gemini-3-flash 新晋榜单第 5 名
  • gemini-3-flash 的 thinking-minimal 版本排名榜单第 12
编程能力榜单(LiveCodeBench GSO Leaderboard)排名变化
  • GPT-5.2 新晋榜单第 1 位
  • GPT-5.1 排名第 6 位
图像编辑能力榜单(Image Edit Arena)排名变化
  • chatgpt-image-latest (20251216)新晋榜单第 1 名
  • gpt-image-1.5 新晋榜单第 3 位,超过 gemini-3-pro-image-preview-2k (nano-banana-pro)
  • reve-v1.1 新晋榜单第 8 名
文生图榜单(Text-to-Image Arena)排名变化
  • gpt-image-1.5 超过 nano banana pro,新晋榜单首位
  • flux-2-max 排名仅次于二者,新晋榜单第 3 名
图像编辑能力榜单 (Artificial Analysis Image Editing Leaderboard)排名变化
  • GPT-Image-1.5 超过 Nano Banana Pro,新晋榜单首位
  • FLUX-2-max 排名仅次于二者,新晋榜单第 3 名
文生图榜单(Artificial Analysis Text to Image Leaderboard)排名变化
  • GPT-Image-1.5 超过 Nano Banana Pro,新晋榜单首位
  • FLUX-2-max 排名仅次于二者,新晋榜单第 3 名
理科能力榜单(LLM Stats GPQA)排名变化
  • Gemini 3 Flash 新晋榜单第 4 名,得分 90.4%
前沿数学能力榜单(EPOCH AI FrontierMath)排名变化
  • GPT-5.2 的 xhigh 推理版本以 40.7% 的得分新晋榜单首位
  • Gemini 3 Flash 以 35.6% 的得分排名榜单第 5 位
多模态基准测试榜单(HLE)排名变化
  • GPT-5.2 新晋榜单第 3 名
GAIA 榜单排名变化
  • Microsoft AI Asia -Ads 发布的 HALO V1217-1 新晋榜首

4. OpenRouter排行榜

测评类型第一名第二名第三名
模型调用量Grok Code Fast 1Gemini 2.5 FlashClaude Sonnet 4.5
编程模型调用量Grok Code Fast 1GPT-5.2Claude Sonnet 4.5
公司市占率GoogleOpenAIxAI

各公司按不同能力领域排名汇总

测评类型领先公司
大语言模型 Text ArenaGoogle、xAI、Anthropic、OpenAI、阿里巴巴、百度、月之暗面、智谱
编程能力 LMArenaAnthropic、OpenAI、Google
编程能力 LiveCodeBenchOpenAI、Anthropic、Google
代码工程任务能力 SWE-benchLite(基于 Claude、Gemini、GPT、Qwen、DeepSeek 开发的开源系统排名靠前)
图像编辑和生成能力 Image Edit ArenaOpenAI、Google、字节、Reve
文生图能力 Text-to-Image ArenaOpenAI、Google、Black Forest Labs、腾讯、字节
图像编辑和生成能力 Image Editing LeaderboardOpenAI、Google、Black Forest Labs、字节、Pruna AI
文生图能力 Text to Image LeaderboardOpenAI、Google、Black Forest Labs、字节
GPQA 榜单OpenAI、Google、xAI、Anthropic、阿里巴巴
FrontierMath 榜单OpenAI、Google、月之暗面、Anthropic、xAI
Humanity's Last Exam 榜单Google、OpenAI、Anthropic

📌关注我,第一时间掌握更多AI前沿资讯!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/9 20:25:24

幽冥大陆(五十五)ASR SetThreadInformation C语言识别到自动化软件

一、函数支持的系统版本SetThreadInformation是 Windows 系统的一个内核相关 API,它的支持情况如下:最低支持的客户端版本:Windows 10 版本 1607(即周年更新版,内部版本 14393)最低支持的服务器版本&#x…

作者头像 李华
网站建设 2026/4/10 14:15:39

利用AI工具轻松降重:精选6个论文网站,改写效果自然流畅

AI论文网站排名:6个推荐,论文降重生成改写自然不标红AI论文网站排名:6个推荐,论文降重生成改写自然不标红开头总结工具对比(技能4) �� 为帮助学生们快速选出最适合的AI论文工具&…

作者头像 李华
网站建设 2026/4/15 7:51:15

6款AI论文改写工具推荐,一键生成原创内容降低重复率

开头总结工具对比(技能4) �� 为帮助学生们快速选出最适合的AI论文工具,我从处理速度、降重效果和核心优势三个维度,对比了6款热门网站,数据基于实际使用案例:工具名称处理速度降重幅…

作者头像 李华
网站建设 2026/4/12 12:33:10

职场人转型AI:先躲开这五个坑,再选认证

职场人转型AI:先躲开这五个坑,再选认证 2025-12-03 10:19 发布于:江西省想转行AI的职场人,很多人不是没能力,而是没绕开路上的坑。这五个常见误区,看看你中招没。坑一:直奔“最难”的技术证书避…

作者头像 李华
网站建设 2026/4/11 2:38:02

基于Simulink的永磁同步发电机谐波失真分析仿真

目录 手把手教你学Simulink 一、引言:为什么“PMSG并网电流波形畸变,THD超标”?——非线性开关器件、死区效应、参数不对称等引入谐波,威胁电能质量与设备安全! 二、谐波危害与标准要求 谐波主要危害 并网标准&…

作者头像 李华