news 2026/5/8 17:03:43

大模型修炼秘籍 第十五章:武功评比——基准测试

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型修炼秘籍 第十五章:武功评比——基准测试

第十五章:武功评比——基准测试

武功评比验功力,基准测试知高低。

【本章导读】

模型修炼完成,如何评估其真实能力?基准测试如同武林大会,让各路模型同台竞技,一较高下。本章将介绍主流评估基准和评估方法。


一、评估的重要性

【评估心法】

没有评估,就没有改进的方向。基准测试帮助我们发现模型的优缺点,指导后续优化。

【评估维度】

┌─────────────────────────────────────────────────────────────┐ │ 模型评估维度 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 能力评估 │ │ ├─ 知识能力:世界知识、专业知识 │ │ ├─ 推理能力:数学、逻辑、因果 │ │ ├─ 语言能力:理解、生成、翻译 │ │ └─ 代码能力:编程、调试、解释 │ │ │ │ 安全评估 │ │ ├─ 有害性:是否产生有害内容 │ │ ├─ 偏见:是否存在歧视性输出 │ │ └─ 幻觉:是否编造虚假信息 │ │ │ │ 效率评估 │ │ ├─ 推理速度:延迟、吞吐量 │ │ └─ 资源消耗:内存、计算 │ │ │ └─────────────────────────────────────────────────────────────┘

二、主流基准测试

1. 综合能力基准

【MMLU(Massive Multitask Language Understanding)】

最权威的综合能力测试,涵盖57个学科:

学科类别示例
STEM物理、化学、生物、计算机
人文历史、哲学、文学
社会科学经济、政治、心理学
其他法律、医学、商业

测试方式:多项选择题,4选1

问题: 以下哪个是Python中的不可变数据类型? A. list B. dict C. tuple D. set 答案: C

【主流模型MMLU成绩】

模型MMLU分数
GPT-3.570.0%
GPT-486.4%
Claude 3 Opus86.8%
LLaMA 3 70B82.0%
DeepSeek-V388.5%

2. 推理能力基准

【GSM8K(小学数学应用题)】

测试数学推理能力:

问题: 小明有5个苹果,给了小红2个,又买了3个,现在有几个? 模型回答: 小明最初有5个苹果。 给了小红2个,剩下 5 - 2 = 3个。 又买了3个,现在有 3 + 3 = 6个。 答案是6。

【MATH(高中数学竞赛)】

更高级的数学推理测试。

【主流模型推理成绩】

模型GSM8KMATH
GPT-3.557.1%23.5%
GPT-492.0%52.9%
Claude 3 Opus95.0%60.1%
LLaMA 3 70B93.0%50.0%
DeepSeek-V389.3%75.9%

3. 代码能力基准

【HumanEval】

Python编程能力测试,164道编程题:

# 问题: 实现一个函数,判断字符串是否是回文defis_palindrome(s:str)->bool:"""判断字符串是否是回文"""# 模型生成代码returns==s[::-1]

【MBPP(Mostly Basic Python Problems)】

基础Python编程问题。

【主流模型代码成绩】

模型HumanEvalMBPP
GPT-3.548.1%52.2%
GPT-486.6%80.2%
Claude 3 Opus84.9%-
DeepSeek-V382.6%75.4%

4. 中文能力基准

【C-Eval】

中文综合能力测试,52个学科:

类别示例
理工科数学、物理、化学
人文社科历史、政治、经济
职业资格法律、医学、会计

【CMMLU】

另一个中文综合能力基准。

【主流模型中文成绩】

模型C-EvalCMMLU
GPT-468.7%70.3%
Claude 367.6%68.8%
Qwen-72B83.3%83.6%
DeepSeek-V390.1%88.0%

5. 长文本能力基准

【LongBench】

测试长文本理解能力:

任务描述
单文档QA阅读长文档回答问题
多文档QA多篇文档综合回答
摘要长文本摘要
代码理解长代码理解

【Needle in a Haystack】

测试模型在长文本中找到特定信息的能力:

在100K token的文本中,隐藏一个特定信息(如"密码是12345"), 测试模型能否准确找到并回答。

三、评估方法

1. 自动评估

使用脚本自动评分:

defevaluate_model(model,benchmark):"""自动评估模型"""results=[]forquestioninbenchmark:# 生成答案answer=model.generate(question.prompt)# 计算分数score=compute_score(answer,question.answer)results.append(score)returnsum(results)/len(results)

2. 人工评估

人类专家评估模型输出质量:

维度评分标准
准确性信息是否正确
完整性回答是否完整
相关性是否回答了问题
流畅性语言是否通顺

3. LLM-as-Judge

用强模型评估其他模型:

defllm_evaluate(judge_model,prompt,response):"""用LLM作为评判者"""evaluation_prompt=f""" 请评估以下回答的质量(1-10分): 问题:{prompt}回答:{response}评分标准: - 准确性 - 完整性 - 相关性 - 流畅性 请给出总分和理由。 """returnjudge_model.generate(evaluation_prompt)

四、评估注意事项

【评估陷阱】

陷阱描述解决方案
数据泄露测试数据在训练中出现过使用新数据、闭源测试集
过拟合模型针对测试集优化多样化评估、真实场景测试
提示敏感不同提示效果差异大标准化提示、多次测试
随机性模型输出不稳定多次采样、取平均

【评估最佳实践】

  1. 多维度评估:不只看单一指标
  2. 真实场景:在实际应用中测试
  3. 对比测试:与基线模型对比
  4. 持续评估:定期重新评估

五、评估工具

【常用评估框架】

工具用途
lm-evaluation-harness综合评估框架
HELM斯坦福评估基准
Open LLM Leaderboard开源模型排行榜
AlpacaEval指令遵循评估

【使用示例】

# 使用lm-evaluation-harness评估lm_eval--modelhf--model_argspretrained=meta-llama/Llama-2-7b\--tasksmmlu,gsm8k,humaneval\--batch_size8

六、本章心法总结

【口诀】

基准测试验功力,综合推理代码齐。
人工自动相结合,多维评估知高低。

【要点回顾】

要点说明
评估维度能力、安全、效率
综合基准MMLU、C-Eval
推理基准GSM8K、MATH
代码基准HumanEval、MBPP
评估方法自动、人工、LLM-as-Judge

【下一章预告】

下一章,我们将学习模型发布,了解如何将训练好的模型推向市场,服务用户。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/8 17:03:35

别只盯着Stegsolve了!用Python PIL库手动解析图片隐写中的二进制二维码

从像素到数据流:用Python原生库破解图片隐写中的二维码生成难题 当你面对一张看似普通的PNG图片,却被告知其中隐藏着关键信息时,大多数安全研究人员的第一反应是打开Stegsolve或binwalk这类现成工具。但真实场景往往更为复杂——可能是在没有…

作者头像 李华
网站建设 2026/5/8 17:03:08

猫抓Cat-Catch:智能浏览器媒体资源嗅探与高效下载解决方案

猫抓Cat-Catch:智能浏览器媒体资源嗅探与高效下载解决方案 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 在当今多媒体内容丰富的网络…

作者头像 李华
网站建设 2026/5/8 17:02:54

小电流高精度检测成为储能PCS性能关键

在新型电力系统的宏大画卷中,储能系统正从单纯的“储放能单元”演变为支撑电网稳定运行的“主动调节器官”。其中,储能变流器作为连接电池与电网的咽喉要道,其交流侧性能直接决定了整个系统的调节品质与安全边界。业界共识在于,响…

作者头像 李华
网站建设 2026/5/8 17:01:55

微信聊天记录永久保存:开源工具WeChatExporter让珍贵对话永不丢失

微信聊天记录永久保存:开源工具WeChatExporter让珍贵对话永不丢失 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾因手机故障、系统升级或误操作而失…

作者头像 李华
网站建设 2026/5/8 17:01:52

一文搞懂外汇接口怎么实时更新美元汇率

做外汇程序那会儿,我特想把美元汇率实时抓到系统里。一开始图省事,写了个循环每隔一秒去请求HTTP接口。跑起来才发现,价格刷新总是慢半拍,行情剧烈波动的时候,拿到手的报价跟实际成交价差了十几个点,根本没…

作者头像 李华