Qwen3.6-27B 等九款本地模型的测试结果-洪萨配资

本次测试针对以下九个模型进行了统一条件下的对比评测：

Gemma-4-31B-IT-Uncensored
SuperGemma4-26B-Uncensored
Gemma 4 - 26B A4B x Claude Opus 4.6
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled
SuperGemma4-26B-Abliterated-Multimodal
Gemma-4-31B-IT-Claude-Opus
Qwen3.6-35B-A3B-Uncensored
Qwen3.6-27B

我下载的都是Q4_K_M量化版

2).电脑硬件参数

硬件类型	型号/规格
显卡	NVIDIA GeForce RTX 4090
内存	64GB DDR5
CPU	Intel Core i9-13900K

测试目标是从逻辑推理能力、代码生成能力、响应速度、运行稳定性四个维度，评估九个模型在实际使用场景中的综合表现。

2. 测试方法与统一设置

为保证横向比较公平，本次评测使用了完全一致的测试方式和参数设置。

2.1 统一参数

temperature：0.0
top_p：1.0
每题采样次数：1
不使用 LLM 裁判
逻辑题采用 exact match 评分
代码题采用程序执行与测试通过率评分

2.2 测试集规模

GSM8K：20 题
BBH：20 题
HumanEval+：10 题
MBPP+：10 题

2.3 评分公式

逻辑分 = (GSM8K + BBH) / 2
代码分 = (HumanEval+ + MBPP+) / 2
总分 = (逻辑分 + 代码分) / 2

3. 总体结果汇总

排名	模型	逻辑分	代码分	总分	平均时延	执行失败率
1	Gemma-4-31B-IT-Uncensored	0.9500	1.0000	0.9750	17.64s	0.00
2	Qwen3.6-27B	0.9500	0.8500	0.9000	149.94s	0.15
3	Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	0.8500	1.0000	0.9250	38.25s	0.00
4	SuperGemma4-26B-Uncensored	0.8750	0.9500	0.9125	4.90s	0.05
4	Qwen3.6-35B-A3B-Uncensored	0.8750	0.9500	0.9125	100.35s	0.05
6	Gemma-4-31B-IT-Claude-Opus	0.8500	0.9000	0.8750	69.27s	0.10
7	Gemma 4 - 26B A4B x Claude Opus 4.6	0.7750	0.9500	0.8625	18.49s	0.05
8	Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	0.6000	1.0000	0.8000	58.25s	0.00
9	SuperGemma4-26B-Abliterated-Multimodal	0.7250	0.5000	0.6125	8.04s	0.50

4. 单模型详细测试结果

4.1 Gemma-4-31B-IT-Uncensored

4.1.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	19 / 20	0.95	21.24s	-
BBH	19 / 20	0.95	29.62s	-
HumanEval+	10 / 10	1.00	15.36s	0.00
MBPP+	10 / 10	1.00	4.35s	0.00

4.1.2 表现分析

以0.9750 总分断层登顶，是八个模型中综合实力最强的。
逻辑能力极强，GSM8K 和 BBH 均达到 0.95。BBH 0.95 远超第二名 SuperGemma4 的 0.80。
代码能力满分，HumanEval+ 和 MBPP+ 全部通过。
执行失败率为 0，稳定性最佳之一。
速度适中（17.64s），与 Gemma4-26B 接近。
该模型是本次评测中唯一一个在逻辑、代码、稳定性三个维度均无短板的模型。

4.1.3 结论

Gemma-4-31B-IT-Uncensored 是本次测试中综合实力最强、无明显短板的模型。是当前最值得推荐的全能型首选模型。

4.2 Qwen3.6-27B

4.2.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	19 / 20	0.95	156.84s	-
BBH	19 / 20	0.95	175.30s	-
HumanEval+	9 / 10	0.90	171.08s	0.10
MBPP+	8 / 10	0.80	96.54s	0.20

4.2.2 表现分析

以0.9000 总分位列第二，逻辑能力极强。
逻辑能力与 Gemma-4-31B-IT-Uncensored 并列第一，GSM8K 和 BBH 均达到 0.95。
代码分 0.85，HumanEval+ 0.90、MBPP+ 0.80，代码能力较强但不及满分模型。
平均时延高达 149.94s，是所有模型中最慢的，远超第二慢的 Qwen3.6-35B（100.35s）。
执行失败率 0.15，稳定性中等。

4.2.3 结论

Qwen3.6-27B 是本次测试中逻辑能力最强之一、但速度极慢的模型。适合不在意响应速度、追求逻辑推理质量的场景。

4.3 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.2.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	20 / 20	1.00	45.08s	-
BBH	14 / 20	0.70	32.16s	-
HumanEval+	10 / 10	1.00	43.15s	0.00
MBPP+	10 / 10	1.00	32.62s	0.00

4.3.2 表现分析

GSM8K 取得满分，数学推理能力是九个模型中最强的之一。
代码能力满分，稳定性优秀。
BBH 0.70，复杂逻辑推理能力明显增强。
平均时延 38.25 秒。

4.3.3 结论

Qwen3.5-27B 是代码能力极强、数学推理极强、综合表现显著提升的模型，最新重测后位列综合第三。

4.4 SuperGemma4-26B-Uncensored

4.3.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	19 / 20	0.95	3.09s	-
BBH	16 / 20	0.80	14.34s	-
HumanEval+	10 / 10	1.00	1.44s	0.00
MBPP+	9 / 10	0.90	0.75s	0.10

4.4.2 表现分析

总分 0.9125 并列第四，逻辑能力仅次于 Gemma-4-31B 和 Qwen3.6-27B。
速度是最大亮点，平均时延仅 4.90 秒，是所有模型中最快的。
代码能力很强，HumanEval+ 满分，MBPP+ 仅丢 1 题。
存在少量执行失败（0.05）。

4.4.3 结论

SuperGemma4-26B-Uncensored 是速度最快 + 综合并列第四的模型。如果极度看重响应速度，它是最佳选择。

4.5 Qwen3.6-35B-A3B-Uncensored

4.4.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	19 / 20	0.95	92.47s	-
BBH	16 / 20	0.80	143.65s	-
HumanEval+	10 / 10	1.00	93.43s	0.00
MBPP+	9 / 10	0.90	71.86s	0.10

4.5.2 表现分析

总分 0.9125，与 SuperGemma4-26B-Uncensored 并列第四。
逻辑分 0.875，GSM8K 0.95、BBH 0.80，逻辑能力很强，与 SuperGemma4 持平。
代码分 0.95，HumanEval+ 满分，MBPP+ 少失 1 题。
执行失败率仅 0.05，稳定性良好。
平均时延 100.35s，是所有模型中第二慢的，仅次于 Qwen3.6-27B。

4.5.3 结论

Qwen3.6-35B-A3B-Uncensored 是一个质量高但速度较慢的模型。综合得分与 SuperGemma4 并列，但时延是其 20 倍。适合不在意响应速度、追求输出质量的场景。

4.6 Gemma-4-31B-IT-Claude-Opus

4.5.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	17 / 20	0.85	85.28s	-
BBH	17 / 20	0.85	78.65s	-
HumanEval+	8 / 10	0.80	71.41s	0.20
MBPP+	10 / 10	1.00	41.74s	0.00

4.6.2 表现分析

总分 0.8750，综合第六。
逻辑比较稳，GSM8K 和 BBH 都到 0.85。
代码能力较强，MBPP+ 满分，HumanEval+ 有 0.80。
速度偏慢（69.27s），执行失败率 0.10。

4.6.3 结论

Gemma-4-31B-IT-Claude-Opus 是一个逻辑稳健、代码较强但速度偏慢的模型。

4.7 Gemma 4 - 26B A4B x Claude Opus 4.6

4.6.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	18 / 20	0.90	18.38s	-
BBH	13 / 20	0.65	20.64s	-
HumanEval+	9 / 10	0.90	18.73s	0.10
MBPP+	10 / 10	1.00	16.20s	0.00

4.7.2 表现分析

综合均衡，逻辑和代码都较强。
速度适中（18.49s）。
存在一定执行失败率（0.05）。

4.7.3 结论

Gemma 4 - 26B A4B x Claude Opus 4.6 是一个均衡且响应较快的模型。

4.8 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.7.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	18 / 20	0.90	26.57s	-
BBH	6 / 20	0.30	33.21s	-
HumanEval+	10 / 10	1.00	129.31s	0.00
MBPP+	10 / 10	1.00	43.93s	0.00

4.8.2 表现分析

代码能力满分。
BBH 仅 0.30，逻辑短板明显。
稳定性良好。

4.8.3 结论

Qwen3-Coder-Next 是一个偏代码导向的模型，不推荐作为综合主力。

4.9 SuperGemma4-26B-Abliterated-Multimodal

4.8.1 分项成绩

测试项	正确 / 通过情况	得分	平均时延	执行失败率
GSM8K	18 / 20	0.90	5.95s	-
BBH	11 / 20	0.55	21.35s	-
HumanEval+	1 / 10	0.10	2.37s	0.90
MBPP+	9 / 10	0.90	2.47s	0.10

4.9.2 表现分析

HumanEval+ 几乎全军覆没，仅通过 1 题（0.10），执行失败率高达 90%。经三次评测结果高度一致，确认为系统性问题。
代码分仅 0.500，是九个模型中断层最低的（第二低为 Qwen3.6-27B 的 0.850）。
逻辑能力中规中矩，GSM8K 0.90 尚可，BBH 0.55 一般。
MBPP+ 得分 0.90，说明简单代码任务能处理，但复杂函数级代码生成存在严重缺陷。
速度较快（8.04s），但速度无法弥补代码质量的致命缺陷。
总执行失败率 0.50，是所有模型中最差的，远高于第二名的 0.15。

4.9.3 结论

SuperGemma4-26B-Abliterated-Multimodal 是本次测试中表现最差的模型。HumanEval+ 代码生成存在系统性缺陷，执行失败率极高，不推荐在任何需要代码能力的场景中使用。

5. 横向对比分析

5.1 逻辑能力对比

模型	GSM8K	BBH	逻辑分
Gemma-4-31B-IT-Uncensored	0.95	0.95	0.950
Qwen3.6-27B	0.95	0.95	0.950
SuperGemma4-26B-Uncensored	0.95	0.80	0.875
Qwen3.6-35B-A3B-Uncensored	0.95	0.80	0.875
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	1.00	0.70	0.850
Gemma-4-31B-IT-Claude-Opus	0.85	0.85	0.850
Gemma 4 - 26B A4B x Claude Opus 4.6	0.90	0.65	0.775
SuperGemma4-26B-Abliterated-Multimodal	0.90	0.55	0.725
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	0.90	0.30	0.600

分析：

Gemma-4-31B-IT-Uncensored 与 Qwen3.6-27B 并列逻辑第一（0.950）。
SuperGemma4-Uncensored 与 Qwen3.6-35B 并列逻辑第三（0.875）。
Qwen3.5-27B 和 Gemma-4-31B-IT-Claude-Opus 紧随其后（0.850）。
Qwen3-Coder-Next BBH 仅 0.30，逻辑短板最明显。

5.2 代码能力对比

模型	HumanEval+	MBPP+	代码分
Gemma-4-31B-IT-Uncensored	1.00	1.00	1.000
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	1.00	1.00	1.000
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	1.00	1.00	1.000
SuperGemma4-26B-Uncensored	1.00	0.90	0.950
Qwen3.6-35B-A3B-Uncensored	1.00	0.90	0.950
Gemma 4 - 26B A4B x Claude Opus 4.6	0.90	1.00	0.950
Gemma-4-31B-IT-Claude-Opus	0.80	1.00	0.900
Qwen3.6-27B	0.90	0.80	0.850
SuperGemma4-26B-Abliterated-Multimodal	0.10	0.90	0.500

分析：

前六个模型代码能力均在 0.95 以上。
Gemma-4-31B-IT-Claude-Opus 代码分 0.90，略低但依然可用。
Qwen3.6-27B 代码分 0.85，代码能力较强。
abliterated-multimodal 的 HumanEval+ 仅 0.10，代码分 0.500 断层垫底。

5.3 速度对比

模型	平均时延
SuperGemma4-26B-Uncensored	4.90s
SuperGemma4-26B-Abliterated-Multimodal	8.04s
Gemma-4-31B-IT-Uncensored	17.64s
Gemma 4 - 26B A4B x Claude Opus 4.6	18.49s
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	38.25s
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	58.25s
Gemma-4-31B-IT-Claude-Opus	69.27s
Qwen3.6-35B-A3B-Uncensored	100.35s
Qwen3.6-27B	149.94s

分析：

SuperGemma4-26B-Uncensored 速度最快，仅 4.90s。
Qwen3.6-27B 速度最慢（149.94s），是其最大短板。
Qwen3.6-35B-A3B-Uncensored 速度第二慢（100.35s）。
abliterated-multimodal 速度排第二（8.04s），但速度快不能弥补代码质量缺陷。

5.4 稳定性对比

模型	执行失败率
Gemma-4-31B-IT-Uncensored	0.00
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2	0.00
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled	0.00
SuperGemma4-26B-Uncensored	0.05
Qwen3.6-35B-A3B-Uncensored	0.05
Gemma 4 - 26B A4B x Claude Opus 4.6	0.05
Gemma-4-31B-IT-Claude-Opus	0.10
Qwen3.6-27B	0.15
SuperGemma4-26B-Abliterated-Multimodal	0.50

分析：

abliterated-multimodal 执行失败率 0.50，远超其他所有模型，稳定性极差。
Qwen3.6-27B 执行失败率 0.15，稳定性中等。

6. 关键结论

6.1 综合排名

Gemma-4-31B-IT-Uncensored（总分 0.9750，断层第一，逻辑碾压 + 代码满分 + 零失败）
Qwen3.6-27B（总分 0.9000，综合第二，逻辑极强与 Gemma-4-31B 并列第一，但速度最慢）
Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2（总分 0.9250，综合第三，逻辑与代码都接近满分）
SuperGemma4-26B-Uncensored（总分 0.9125，综合并列第四，但速度最快）
Qwen3.6-35B-A3B-Uncensored（总分 0.9125，综合并列第四，质量高但速度第二慢）
Gemma-4-31B-IT-Claude-Opus（0.8750）
Gemma 4 - 26B A4B x Claude Opus 4.6（0.8625）
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled（0.8000）
SuperGemma4-26B-Abliterated-Multimodal（0.6125，不推荐）

6.2 场景化推荐

追求综合最强、全面无短板

追求极致速度 + 综合较强

追求逻辑极强 + 不在意速度

更重视代码生成、数学能力与稳定性

推荐：Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

原因：

GSM8K 满分（八者中唯一）
代码项满分
执行失败率为 0

质量优先、不在意速度

不推荐

SuperGemma4-26B-Abliterated-Multimodal

原因：

HumanEval+ 执行失败率高达 90%，代码分仅 0.50
总执行失败率 0.50，稳定性极差
总分 0.6125，断层垫底
虽然速度较快，但代码生成质量不合格，不适合任何需要代码能力的场景

7. 最终总结

本次测试显示，九个模型在"逻辑、代码、速度、稳定性"四个维度上表现差异显著。

Gemma-4-31B-IT-Uncensored：综合实力断层第一，逻辑碾压全场，代码满分，零失败，是当前最值得推荐的全能型首选模型。
Qwen3.6-27B：综合第二，逻辑极强与 Gemma-4-31B 并列第一，代码较强，但速度最慢（149.94s），适合不在意速度、追求逻辑推理质量的场景。
Qwen3.5-27B：综合第三，代码满分、数学满分，逻辑与速度都有明显提升。
SuperGemma4-26B-Uncensored：综合并列第四，速度极快（4.90s），适合对交互效率要求极高的场景。
Qwen3.6-35B-A3B-Uncensored：综合并列第四，质量极高，但速度是所有模型中第二慢的（100.35s），适合不在意速度的场景。
Gemma-4-31B-IT-Claude-Opus：综合第六，逻辑稳健、代码较强，但速度偏慢。
Gemma 4 - 26B A4B x Claude Opus 4.6：综合均衡，速度较快，适合作为通用助手。
Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled：代码能力强，但逻辑短板明显，更适合作为偏代码专用模型。
SuperGemma4-26B-Abliterated-Multimodal：代码生成存在系统性缺陷，执行失败率极高，不推荐使用。

如果从实际落地角度只选一个模型，优先推荐Gemma-4-31B-IT-Uncensored；如果极度看重速度，则SuperGemma4-26B-Uncensored是最佳选择；如果追求逻辑极强且不在意速度，Qwen3.6-27B是理想选择。

上一篇SpringBoot3 + LangChain4j + Redis 实现大模型多轮对话及工具调用

下一篇我的 Claude Code 效率工具全套配置分享

本文作者：fengzeng

本文链接：https://www.cnblogs.com/Fzeng/p/19938294

关注我收藏该文

posted @ 2026-04-27 16:28 fengzeng 阅读(3045) 评论(8) 收藏举报

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

2).电脑硬件参数

2. 测试方法与统一设置

2.1 统一参数

2.2 测试集规模

2.3 评分公式

3. 总体结果汇总

4. 单模型详细测试结果

4.1 Gemma-4-31B-IT-Uncensored

4.1.1 分项成绩

4.1.2 表现分析

4.1.3 结论

4.2 Qwen3.6-27B

4.2.1 分项成绩

4.2.2 表现分析

4.2.3 结论

4.3 Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled-v2

4.2.1 分项成绩

4.3.2 表现分析

4.3.3 结论

4.4 SuperGemma4-26B-Uncensored

4.3.1 分项成绩

4.4.2 表现分析

4.4.3 结论

4.5 Qwen3.6-35B-A3B-Uncensored

4.4.1 分项成绩

4.5.2 表现分析

4.5.3 结论

4.6 Gemma-4-31B-IT-Claude-Opus

4.5.1 分项成绩

4.6.2 表现分析

4.6.3 结论

4.7 Gemma 4 - 26B A4B x Claude Opus 4.6

4.6.1 分项成绩

4.7.2 表现分析

4.7.3 结论

4.8 Qwen3-Coder-Next — Opus 4.6 Reasoning Distilled

4.7.1 分项成绩

4.8.2 表现分析

4.8.3 结论

4.9 SuperGemma4-26B-Abliterated-Multimodal

4.8.1 分项成绩

4.9.2 表现分析

4.9.3 结论

5. 横向对比分析

5.1 逻辑能力对比

5.2 代码能力对比

5.3 速度对比

5.4 稳定性对比

6. 关键结论

6.1 综合排名

6.2 场景化推荐

追求综合最强、全面无短板

追求极致速度 + 综合较强

追求逻辑极强 + 不在意速度

更重视代码生成、数学能力与稳定性

质量优先、不在意速度

不推荐

7. 最终总结

从零构建操作系统：30天自制OS实战深度指南

从SQL注入到文件上传：构建自动化安全审计技能与DevSecOps实践

3步掌握League Toolkit：英雄联盟智能助手的完整实践指南

AI评测实战指南：构建模型能力图谱与真实场景适配体系

下载 | Win11 25H2 正式版更新！(系统ISO映像、年度更新版本、26200.8655、Windows 11)

Skills实战：从0到1设计一个“数据驱动”Skill，一行配置跑10组参数