news 2026/4/21 3:41:30

代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估

代码实现 基于 DeepEval 框架实现工单摘要质量的批量自动评估

一、代码核心目标与整体流程

基于DeepEval框架实现工单摘要质量的批量自动评估:对接自定义 OpenAI 兼容接口(34ku),读取 Excel 中的「原始工单对话+人工/模型生成的工单摘要」,通过 DeepEval 的SummarizationMetric指标完成摘要质量打分,最终输出逐行评分、通过率、平均分等统计结果。

整体执行流程:

读取Excel(原始对话+摘要)→ 构建DeepEval测试用例 → 调用自定义LLM执行摘要评估 → 解析评分结果 → 统计/保存结果

二、核心原理:摘要评估的底层逻辑(SummarizationMetric)

DeepEval 的SummarizationMetric基于LLM的自动评估指标,核心是让大模型充当“评委”,从「准确性、完整性、简洁性、流畅性」四个维度评判摘要质量,具体逻辑:

  1. 构造评估Prompt:DeepEval 会

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/18 7:58:54

Visual Basic编程规范指南:Dassault Systèmes产品线脚本开发最佳实践

Visual Basic编程规范在Dassault Systmes产品线脚本开发中扮演着关键角色,尤其在确保脚本可测试性和跨平台兼容性方面。基于CATIA VBA环境的特殊性,本指南旨在提供一套系统化的编码规则,帮助开发者创建高效、可靠且易于维护的脚本。这些规则不仅适用于简单的宏脚本,也适用于…

作者头像 李华
网站建设 2026/4/17 7:51:10

Ubuntu安装SSH服务以便远程访问PyTorch开发机

Ubuntu安装SSH服务以便远程访问PyTorch开发机 在深度学习项目中,开发者常常需要连接到远端搭载高性能GPU的服务器进行模型训练。这些设备通常运行Ubuntu系统,并基于PyTorch-CUDA镜像构建开发环境。然而,默认情况下这类容器或主机并未开启远程…

作者头像 李华
网站建设 2026/4/17 8:29:02

集成LobeChat的三大理由:美观、灵活、易扩展

集成LobeChat的三大理由:美观、灵活、易扩展 在今天,几乎每个开发者都用过大语言模型——无论是写代码、查资料,还是生成文案。但你有没有想过,为什么很多人宁愿复制提示词去官方网页,也不愿自己搭个前端?问…

作者头像 李华
网站建设 2026/4/19 3:00:30

Huggingface镜像网站注册账号是否必要?Qwen3-VL-8B下载实测

Huggingface镜像网站注册账号是否必要?Qwen3-VL-8B下载实测 在多模态大模型日益普及的今天,越来越多开发者希望将“看图说话”能力快速集成到自己的应用中。无论是电商的商品图文理解、客服系统的视觉问答,还是内容平台的自动摘要生成&#…

作者头像 李华