news 2026/6/25 14:14:14

Qwen3.6-27B 等九款本地模型的测试结果

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen3.6-27B 等九款本地模型的测试结果

本次测试针对以下九个模型进行了统一条件下的对比评测:

  • Gemma-4-31B-IT-Uncensored
  • SuperGemma4-26B-Uncensored
  • Gemma 4 - 26B A4B x Claude Opus 4.6
  • Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
  • SuperGemma4-26B-Abliterated-Multimodal
  • Gemma-4-31B-IT-Claude-Opus
  • Qwen3.6-35B-A3B-Uncensored
  • Qwen3.6-27B

我下载的都是Q4_K_M量化版

2).电脑硬件参数

硬件类型型号/规格
显卡NVIDIA GeForce RTX 4090
内存64GB DDR5
CPUIntel Core i9-13900K



测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度,评估九个模型在实际使用场景中的综合表现。

2. 测试方法与统一设置

为保证横向比较公平,本次评测使用了完全一致的测试方式和参数设置。

2.1 统一参数

  • temperature:0.0
  • top_p:1.0
  • 每题采样次数:1
  • 不使用 LLM 裁判
  • 逻辑题采用 exact match 评分
  • 代码题采用程序执行与测试通过率评分

2.2 测试集规模

  • GSM8K:20 题
  • BBH:20 题
  • HumanEval+:10 题
  • MBPP+:10 题

2.3 评分公式

  • 逻辑分 = (GSM8K + BBH) / 2
  • 代码分 = (HumanEval+ + MBPP+) / 2
  • 总分 = (逻辑分 + 代码分) / 2

3. 总体结果汇总

排名模型逻辑分代码分总分平均时延执行失败率
1Gemma-4-31B-IT-Uncensored0.95001.00000.975017.64s0.00
2Qwen3.6-27B0.95000.85000.9000149.94s0.15
3Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v20.85001.00000.925038.25s0.00
4SuperGemma4-26B-Uncensored0.87500.95000.91254.90s0.05
4Qwen3.6-35B-A3B-Uncensored0.87500.95000.9125100.35s0.05
6Gemma-4-31B-IT-Claude-Opus0.85000.90000.875069.27s0.10
7Gemma 4 - 26B A4B x Claude Opus 4.60.77500.95000.862518.49s0.05
8Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled0.60001.00000.800058.25s0.00
9SuperGemma4-26B-Abliterated-Multimodal0.72500.50000.61258.04s0.50

4. 单模型详细测试结果

4.1 Gemma-4-31B-IT-Uncensored

4.1.1 分项成绩
测试项正确 / 通过情况得分平均时延执行失败率
GSM8K19 / 200.9521.24s-
BBH19 / 200.9529.62s-
HumanEval+10 / 101.0015.36s0.00
MBPP+10 / 101.004.35s0.00
4.1.2 表现分析
  • 0.9750 总分断层登顶,是八个模型中综合实力最强的。
  • 逻辑能力极强,GSM8K 和 BBH 均达到 0.95。BBH 0.95 远超第二名 SuperGemma4 的 0.80。
  • 代码能力满分,HumanEval+ 和 MBPP+ 全部通过。
  • 执行失败率为 0,稳定性最佳之一。
  • 速度适中(17.64s),与 Gemma4-26B 接近。
  • 该模型是本次评测中唯一一个在逻辑、代码、稳定性三个维度均无短板的模型。
4.1.3 结论

Gemma-4-31B-IT-Uncensored 是本次测试中综合实力最强、无明显短板的模型。是当前最值得推荐的全能型首选模型。


4.2 Qwen3.6-27B

4.2.1 分项成绩
测试项正确 / 通过情况得分平均时延执行失败率
GSM8K19 / 200.95156.84s-
BBH19 / 200.95175.30s-
HumanEval+9 / 100.90171.08s0.10
MBPP+8 / 100.8096.54s0.20
4.2.2 表现分析
  • 0.9000 总分位列第二,逻辑能力极强。
  • 逻辑能力与 Gemma-4-31B-IT-Uncensored 并列第一,GSM8K 和 BBH 均达到 0.95。
  • 代码分 0.85,HumanEval+ 0.90、MBPP+ 0.80,代码能力较强但不及满分模型。
  • 平均时延高达 149.94s,是所有模型中最慢的,远超第二慢的 Qwen3.6-35B(100.35s)。
  • 执行失败率 0.15,稳定性中等。
4.2.3 结论

Qwen3.6-27B 是本次测试中逻辑能力最强之一、但速度极慢的模型。适合不在意响应速度、追求逻辑推理质量的场景。


4.3 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.2.1 分项成绩
测试项正确 / 通过情况得分平均时延执行失败率
GSM8K20 / 201.0045.08s-
BBH14 / 200.7032.16s-
HumanEval+10 / 101.0043.15s0.00
MBPP+10 / 101.0032.62s0.00
4.3.2 表现分析
  • GSM8K 取得满分,数学推理能力是九个模型中最强的之一。
  • 代码能力满分,稳定性优秀。
  • BBH 0.70,复杂逻辑推理能力明显增强。
  • 平均时延 38.25 秒。
4.3.3 结论

Qwen3.5-27B 是代码能力极强、数学推理极强、综合表现显著提升的模型,最新重测后位列综合第三。


4.4 SuperGemma4-26B-Uncensored

4.3.1 分项成绩
测试项正确 / 通过情况得分平均时延执行失败率
GSM8K19 / 200.953.09s-
BBH16 / 200.8014.34s-
HumanEval+10 / 101.001.44s0.00
MBPP+9 / 100.900.75s0.10
4.4.2 表现分析
  • 总分 0.9125 并列第四,逻辑能力仅次于 Gemma-4-31B 和 Qwen3.6-27B。
  • 速度是最大亮点,平均时延仅 4.90 秒,是所有模型中最快的。
  • 代码能力很强,HumanEval+ 满分,MBPP+ 仅丢 1 题。
  • 存在少量执行失败(0.05)。
4.4.3 结论

SuperGemma4-26B-Uncensored 是速度最快 + 综合并列第四的模型。如果极度看重响应速度,它是最佳选择。


4.5 Qwen3.6-35B-A3B-Uncensored

4.4.1 分项成绩
测试项正确 / 通过情况得分平均时延执行失败率
GSM8K19 / 200.9592.47s-
BBH16 / 200.80143.65s-
HumanEval+10 / 101.0093.43s0.00
MBPP+9 / 100.9071.86s0.10
4.5.2 表现分析
  • 总分 0.9125,与 SuperGemma4-26B-Uncensored 并列第四。
  • 逻辑分 0.875,GSM8K 0.95、BBH 0.80,逻辑能力很强,与 SuperGemma4 持平。
  • 代码分 0.95,HumanEval+ 满分,MBPP+ 少失 1 题。
  • 执行失败率仅 0.05,稳定性良好。
  • 平均时延 100.35s,是所有模型中第二慢的,仅次于 Qwen3.6-27B。
4.5.3 结论

Qwen3.6-35B-A3B-Uncensored 是一个质量高但速度较慢的模型。综合得分与 SuperGemma4 并列,但时延是其 20 倍。适合不在意响应速度、追求输出质量的场景。


4.6 Gemma-4-31B-IT-Claude-Opus

4.5.1 分项成绩
测试项正确 / 通过情况得分平均时延执行失败率
GSM8K17 / 200.8585.28s-
BBH17 / 200.8578.65s-
HumanEval+8 / 100.8071.41s0.20
MBPP+10 / 101.0041.74s0.00
4.6.2 表现分析
  • 总分 0.8750,综合第六。
  • 逻辑比较稳,GSM8K 和 BBH 都到 0.85。
  • 代码能力较强,MBPP+ 满分,HumanEval+ 有 0.80。
  • 速度偏慢(69.27s),执行失败率 0.10。
4.6.3 结论

Gemma-4-31B-IT-Claude-Opus 是一个逻辑稳健、代码较强但速度偏慢的模型。


4.7 Gemma 4 - 26B A4B x Claude Opus 4.6

4.6.1 分项成绩
测试项正确 / 通过情况得分平均时延执行失败率
GSM8K18 / 200.9018.38s-
BBH13 / 200.6520.64s-
HumanEval+9 / 100.9018.73s0.10
MBPP+10 / 101.0016.20s0.00
4.7.2 表现分析
  • 综合均衡,逻辑和代码都较强。
  • 速度适中(18.49s)。
  • 存在一定执行失败率(0.05)。
4.7.3 结论

Gemma 4 - 26B A4B x Claude Opus 4.6 是一个均衡且响应较快的模型。


4.8 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.7.1 分项成绩
测试项正确 / 通过情况得分平均时延执行失败率
GSM8K18 / 200.9026.57s-
BBH6 / 200.3033.21s-
HumanEval+10 / 101.00129.31s0.00
MBPP+10 / 101.0043.93s0.00
4.8.2 表现分析
  • 代码能力满分。
  • BBH 仅 0.30,逻辑短板明显。
  • 稳定性良好。
4.8.3 结论

Qwen3-Coder-Next 是一个偏代码导向的模型,不推荐作为综合主力。


4.9 SuperGemma4-26B-Abliterated-Multimodal

4.8.1 分项成绩
测试项正确 / 通过情况得分平均时延执行失败率
GSM8K18 / 200.905.95s-
BBH11 / 200.5521.35s-
HumanEval+1 / 100.102.37s0.90
MBPP+9 / 100.902.47s0.10
4.9.2 表现分析
  • HumanEval+ 几乎全军覆没,仅通过 1 题(0.10),执行失败率高达 90%。经三次评测结果高度一致,确认为系统性问题。
  • 代码分仅 0.500,是九个模型中断层最低的(第二低为 Qwen3.6-27B 的 0.850)。
  • 逻辑能力中规中矩,GSM8K 0.90 尚可,BBH 0.55 一般。
  • MBPP+ 得分 0.90,说明简单代码任务能处理,但复杂函数级代码生成存在严重缺陷。
  • 速度较快(8.04s),但速度无法弥补代码质量的致命缺陷。
  • 总执行失败率 0.50,是所有模型中最差的,远高于第二名的 0.15。
4.9.3 结论

SuperGemma4-26B-Abliterated-Multimodal 是本次测试中表现最差的模型。HumanEval+ 代码生成存在系统性缺陷,执行失败率极高,不推荐在任何需要代码能力的场景中使用

5. 横向对比分析

5.1 逻辑能力对比

模型GSM8KBBH逻辑分
Gemma-4-31B-IT-Uncensored0.950.950.950
Qwen3.6-27B0.950.950.950
SuperGemma4-26B-Uncensored0.950.800.875
Qwen3.6-35B-A3B-Uncensored0.950.800.875
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v21.000.700.850
Gemma-4-31B-IT-Claude-Opus0.850.850.850
Gemma 4 - 26B A4B x Claude Opus 4.60.900.650.775
SuperGemma4-26B-Abliterated-Multimodal0.900.550.725
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled0.900.300.600

分析:

  • Gemma-4-31B-IT-Uncensored 与 Qwen3.6-27B 并列逻辑第一(0.950)。
  • SuperGemma4-Uncensored 与 Qwen3.6-35B 并列逻辑第三(0.875)。
  • Qwen3.5-27B 和 Gemma-4-31B-IT-Claude-Opus 紧随其后(0.850)。
  • Qwen3-Coder-Next BBH 仅 0.30,逻辑短板最明显。

5.2 代码能力对比

模型HumanEval+MBPP+代码分
Gemma-4-31B-IT-Uncensored1.001.001.000
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v21.001.001.000
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled1.001.001.000
SuperGemma4-26B-Uncensored1.000.900.950
Qwen3.6-35B-A3B-Uncensored1.000.900.950
Gemma 4 - 26B A4B x Claude Opus 4.60.901.000.950
Gemma-4-31B-IT-Claude-Opus0.801.000.900
Qwen3.6-27B0.900.800.850
SuperGemma4-26B-Abliterated-Multimodal0.100.900.500

分析:

  • 前六个模型代码能力均在 0.95 以上。
  • Gemma-4-31B-IT-Claude-Opus 代码分 0.90,略低但依然可用。
  • Qwen3.6-27B 代码分 0.85,代码能力较强。
  • abliterated-multimodal 的 HumanEval+ 仅 0.10,代码分 0.500 断层垫底。

5.3 速度对比

模型平均时延
SuperGemma4-26B-Uncensored4.90s
SuperGemma4-26B-Abliterated-Multimodal8.04s
Gemma-4-31B-IT-Uncensored17.64s
Gemma 4 - 26B A4B x Claude Opus 4.618.49s
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v238.25s
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled58.25s
Gemma-4-31B-IT-Claude-Opus69.27s
Qwen3.6-35B-A3B-Uncensored100.35s
Qwen3.6-27B149.94s

分析:

  • SuperGemma4-26B-Uncensored 速度最快,仅 4.90s。
  • Qwen3.6-27B 速度最慢(149.94s),是其最大短板。
  • Qwen3.6-35B-A3B-Uncensored 速度第二慢(100.35s)。
  • abliterated-multimodal 速度排第二(8.04s),但速度快不能弥补代码质量缺陷。

5.4 稳定性对比

模型执行失败率
Gemma-4-31B-IT-Uncensored0.00
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v20.00
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled0.00
SuperGemma4-26B-Uncensored0.05
Qwen3.6-35B-A3B-Uncensored0.05
Gemma 4 - 26B A4B x Claude Opus 4.60.05
Gemma-4-31B-IT-Claude-Opus0.10
Qwen3.6-27B0.15
SuperGemma4-26B-Abliterated-Multimodal0.50

分析:

  • abliterated-multimodal 执行失败率 0.50,远超其他所有模型,稳定性极差。
  • Qwen3.6-27B 执行失败率 0.15,稳定性中等。

6. 关键结论

6.1 综合排名

  1. Gemma-4-31B-IT-Uncensored(总分 0.9750,断层第一,逻辑碾压 + 代码满分 + 零失败)
  2. Qwen3.6-27B(总分 0.9000,综合第二,逻辑极强与 Gemma-4-31B 并列第一,但速度最慢)
  3. Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2(总分 0.9250,综合第三,逻辑与代码都接近满分)
  4. SuperGemma4-26B-Uncensored(总分 0.9125,综合并列第四,但速度最快)
  5. Qwen3.6-35B-A3B-Uncensored(总分 0.9125,综合并列第四,质量高但速度第二慢)
  6. Gemma-4-31B-IT-Claude-Opus(0.8750)
  7. Gemma 4 - 26B A4B x Claude Opus 4.6(0.8625)
  8. Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled(0.8000)
  9. SuperGemma4-26B-Abliterated-Multimodal(0.6125,不推荐)

6.2 场景化推荐

追求综合最强、全面无短板

推荐:Gemma-4-31B-IT-Uncensored

原因:

  • 总分 0.9750,断层第一
  • 逻辑 0.950(BBH 0.95,碾压全场)
  • 代码满分
  • 执行失败率为 0
  • 速度适中(17.64s)
追求极致速度 + 综合较强

推荐:SuperGemma4-26B-Uncensored

原因:

  • 总分并列第四(0.9125)
  • 速度极快(4.90s),是所有模型中最快的
  • 逻辑和代码都很强
追求逻辑极强 + 不在意速度

推荐:Qwen3.6-27B

原因:

  • 逻辑分 0.950,与 Gemma-4-31B-IT-Uncensored 并列第一
  • 代码分 0.85,代码能力较强
  • 但速度最慢(149.94s),稳定性中等(0.15)
更重视代码生成、数学能力与稳定性

推荐:Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

原因:

  • GSM8K 满分(八者中唯一)
  • 代码项满分
  • 执行失败率为 0
质量优先、不在意速度

推荐:Qwen3.6-35B-A3B-Uncensored

原因:

  • 逻辑 0.875、代码 0.95,质量很高
  • 与 SuperGemma4-26B-Uncensored 同分(0.9125)
  • 但时延 100.35s,速度较慢
不推荐

SuperGemma4-26B-Abliterated-Multimodal

原因:

  • HumanEval+ 执行失败率高达 90%,代码分仅 0.50
  • 总执行失败率 0.50,稳定性极差
  • 总分 0.6125,断层垫底
  • 虽然速度较快,但代码生成质量不合格,不适合任何需要代码能力的场景

7. 最终总结

本次测试显示,九个模型在"逻辑、代码、速度、稳定性"四个维度上表现差异显著。

  • Gemma-4-31B-IT-Uncensored:综合实力断层第一,逻辑碾压全场,代码满分,零失败,是当前最值得推荐的全能型首选模型。
  • Qwen3.6-27B:综合第二,逻辑极强与 Gemma-4-31B 并列第一,代码较强,但速度最慢(149.94s),适合不在意速度、追求逻辑推理质量的场景。
  • Qwen3.5-27B:综合第三,代码满分、数学满分,逻辑与速度都有明显提升。
  • SuperGemma4-26B-Uncensored:综合并列第四,速度极快(4.90s),适合对交互效率要求极高的场景。
  • Qwen3.6-35B-A3B-Uncensored:综合并列第四,质量极高,但速度是所有模型中第二慢的(100.35s),适合不在意速度的场景。
  • Gemma-4-31B-IT-Claude-Opus:综合第六,逻辑稳健、代码较强,但速度偏慢。
  • Gemma 4 - 26B A4B x Claude Opus 4.6:综合均衡,速度较快,适合作为通用助手。
  • Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled:代码能力强,但逻辑短板明显,更适合作为偏代码专用模型。
  • SuperGemma4-26B-Abliterated-Multimodal:代码生成存在系统性缺陷,执行失败率极高,不推荐使用

如果从实际落地角度只选一个模型,优先推荐Gemma-4-31B-IT-Uncensored;如果极度看重速度,则SuperGemma4-26B-Uncensored是最佳选择;如果追求逻辑极强且不在意速度,Qwen3.6-27B是理想选择。

上一篇SpringBoot3 + LangChain4j + Redis 实现大模型多轮对话及工具调用

    下一篇我的 Claude Code 效率工具全套配置分享

      本文作者:fengzeng

      本文链接:https://www.cnblogs.com/Fzeng/p/19938294

      版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

      关注我收藏该文

      3

      0

      posted @ 2026-04-27 16:28 fengzeng 阅读(3045) 评论(8) 收藏 举报

      登录后才能查看或发表评论,立即 登录 或者 逛逛 博客园首页

      【推荐】 凌霞 618 年中大促,Halo 与 1Panel 产品全线半价,叠加满减!
      【推荐】HarmonyOS 6.1.0 创新特性“悬浮页签+沉浸光感”精品文章专题
      【推荐】科研领域的连接者艾思科蓝,一站式科研学术服务数字化平台

      博客园 © 2004-2026
      ​编辑浙公网安备 33010602011

      版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
      网站建设 2026/6/25 14:11:03

      从SQL注入到文件上传:构建自动化安全审计技能与DevSecOps实践

      1. 项目概述:为什么我们需要“agent-skills”安全审计技能?在今天的开发与运维世界里,一个项目的上线远不止是功能跑通那么简单。我见过太多团队,在冲刺业务需求时风风火火,却在安全问题上栽了大跟头。轻则数据泄露、服…

      作者头像 李华
      网站建设 2026/6/25 14:10:00

      3步掌握League Toolkit:英雄联盟智能助手的完整实践指南

      3步掌握League Toolkit:英雄联盟智能助手的完整实践指南 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Toolkit是一款基于…

      作者头像 李华
      网站建设 2026/6/25 14:09:30

      AI评测实战指南:构建模型能力图谱与真实场景适配体系

      1. 为什么今天必须把AI评测这件事“掰开揉碎”讲清楚?我做AI产品评测相关工作快八年了,从最早给实验室模型跑MMLU、GSM8K,到后来带团队给客户定制化评测方案,再到去年帮三家硬件厂商做端侧大模型选型——踩过的坑、被甩过的锅、被…

      作者头像 李华
      网站建设 2026/6/25 14:07:00

      Skills实战:从0到1设计一个“数据驱动”Skill,一行配置跑10组参数

      你以为在写脚本,其实在造轮子。你以为在复用代码,其实在重复自己。最近三个月,我跑了四个项目,见了不下二十个测试团队。一个现象越来越明显:大部分人已经在用“Skill”这个概念,但90%的人把它用成了“脚本…

      作者头像 李华