大语言模型综合排行榜 26-02-01图片本周排名前10的模型为：Gemini 3 ProGPT-5.2Gemini 3 FlashClaude Opus 4.5GPT-洪萨配资

大语言模型综合排行榜 26-02-01

原创网球玩的人老网的博客2026年2月1日 16:25加拿大

本周排名前10的模型为：

Gemini 3 Pro

GPT-5.2

Gemini 3 Flash

Claude Opus 4.5

GPT-5.1

Kimi-K2.5

GPT-5

DeepSeek v3.2

GLM-4.7

GPT-5.1 Mini

简介：

本表格汇总了常用大语言模型在主流评测排行榜上的表现。评测范围涵盖：

人类偏好（文字和视觉），知识与推理，数学能力，代码能力，长文本推理，和指令遵循能力。

在整合各项评测结果的基础上，计算出综合排名。

更新：

本次排名，Kimi-K2.5模型首次加入榜单。它没有特别出彩的表现，但综合实力均衡，且比Kimi-K2有明显提升，跻身第六。

artifical analysis边的数据更新了Qwen 3 max的推理模型的结果。比起非推理模型，整体能力大幅提升。

除了gpt-4.5，本榜单所有模型皆为推理模型。推理能力基本上是顶尖模型的标配了。

总结：

综合实力最强：Gemini 3 Pro

国内最强模型：Kimi-K2.5/DeepSeek v3.2/GLM-4.7

最强开源模型：Kimi-K2.5/DeepSeek v3.2/GLM-4.7

最强代码模型：Gemini 3 Pro/GPT-5.2/Claude Opus 4.5

本项目仓库：

https://github.com/Tennisatw/LLM-Leaderboard

DeepSeek-OCR-2惊艳案例：手写签名+印刷正文混合文档，仅正文结构化输出

DeepSeek-OCR-2惊艳案例：手写签名印刷正文混合文档，仅正文结构化输出 1. 工具概览 DeepSeek-OCR-2是一款基于深度学习的智能文档解析工具，它能将复杂的纸质文档或图片中的内容精准转换为结构化的数字格式。与普通OCR工具不同，它…

李华

AI+身份认证系统集成：人脸照片标准化预处理案例

AI身份认证系统集成：人脸照片标准化预处理案例 1. 为什么证件照总要跑照相馆？这次我们用AI把它“搬”进浏览器你有没有过这样的经历：临时要交身份证照片，翻遍手机相册却找不到一张符合要求的正面免冠照；跑到照相馆&…

李华

音乐流派分类不求人：ccmusic-database开箱即用体验

音乐流派分类不求人：ccmusic-database开箱即用体验你有没有过这样的经历：听到一段旋律，心里直犯嘀咕——这到底是爵士还是蓝调？是独立流行还是灵魂乐？想给收藏的几百首歌自动打标签，却卡在“听不出流派”…

李华

WuliArt Qwen-Image Turbo多场景部署：单卡服务+负载均衡+风格路由架构设计

WuliArt Qwen-Image Turbo多场景部署：单卡服务负载均衡风格路由架构设计 1. 为什么需要一套“能跑、能稳、能分、能扩”的文生图服务架构？ 你有没有遇到过这样的情况： 刚配好一台RTX 4090，满心欢喜想跑个文生图模型，…

李华

LFM2.5-1.2B-Thinking效果展示：Ollama平台金融财报分析、风险点识别与摘要生成

LFM2.5-1.2B-Thinking效果展示：Ollama平台金融财报分析、风险点识别与摘要生成 1. 模型能力概览 LFM2.5-1.2B-Thinking是一款专为设备端部署优化的文本生成模型，在金融文本处理领域展现出卓越性能。这款1.2B参数的模型通过28T token的预训练数据和大规…

李华

一键部署ClawdBot：个人AI助手的简单使用教程

一键部署ClawdBot：个人AI助手的简单使用教程 ClawdBot不是另一个需要注册账号、绑定手机号、等审核的云服务。它是一个真正属于你自己的AI助手——装在你本地设备上，数据不上传，响应不依赖网络，模型可以随时更换，界面…

李华