news 2026/4/15 12:37:08

python bert_score使用本地模型的方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
python bert_score使用本地模型的方法

1. 背景

bert_score是一个用于评估文本生成质量的Python库,基于预训练的BERT模型计算参考文本与生成文本之间的语义相似度。它通过比较两个文本的BERT嵌入向量来评估它们的匹配程度,比传统的n-gram匹配方法(如BLEU、ROUGE)更能捕捉语义层面的相似性。一般bert_score 是仅仅支持指定模型名称然后再代码实现里面从Hugging Face上面拉取模型。但是如果我们在有限制的网络环境中在线拉取模型就会失败,比较合适的解决办法就是先将模型下载到本地,然后给bert_score指定模型路径。

2. 支持的模型和语言

bert_score中通过model_type和lang两个参数来执行模型和对应的文本语言。

具体文档可以参考:https://github.com/Tiiiger/bert_score

from bert_score import score candidates = ["The cat sits on the mat."] # 生成文本 references = ["A cat is sitting on the rug."] # 参考文本 # 计算BERTScore P, R, F1 = score(candidates, references, model_type='roberta-large',lang="en") print(f"Precision: {P.mean():.3f}, Recall: {R.mean():.3f}, F1: {F1.mean():.3f}")

3.支持本地模型的方法

3.1 修改源码

1. 在score方法里面可以看到get_model和get_tokenizer两个方法

2.点进去可以看到对应函数的源码

def get_model(model_type, num_layers, all_layers=None): if model_type.startswith("scibert"): model = AutoModel.from_pretrained(cache_scibert(model_type)) elif "t5" in model_type: from transformers import T5EncoderModel model = T5EncoderModel.from_pretrained(model_type) else: model = AutoModel.from_pretrained(model_type) model.eval() if hasattr(model, "decoder") and hasattr(model, "encoder"): model = model.encoder # drop unused layers # ...... return model def get_tokenizer(model_type, use_fast=False): if model_type.startswith("scibert"): model_type = cache_scibert(model_type) if version.parse(trans_version) >= version.parse("4.0.0"): tokenizer = AutoTokenizer.from_pretrained(model_type, use_fast=use_fast) else: assert not use_fast, "Fast tokenizer is not available for version < 4.0.0" tokenizer = AutoTokenizer.from_pretrained(model_type) return tokenizer

3. 修改源码直接将我们的model_path硬编码进去,当然为了更好的适配性,可以将model_path做成一个可选参数,然后传递出去给score函数

def get_model(model_type, num_layers, all_layers=None): model_path = 'xxx' if model_type.startswith("scibert"): model = AutoModel.from_pretrained(cache_scibert(model_type)) elif "t5" in model_type: from transformers import T5EncoderModel model = T5EncoderModel.from_pretrained(model_path) else: model = AutoModel.from_pretrained(model_path) model.eval() def get_tokenizer(model_type, use_fast=False): if model_type.startswith("scibert"): model_type = cache_scibert(model_type) model_path = 'xxx' if version.parse(trans_version) >= version.parse("4.0.0"): tokenizer = AutoTokenizer.from_pretrained(model_path, use_fast=use_fast) else: assert not use_fast, "Fast tokenizer is not available for version < 4.0.0" tokenizer = AutoTokenizer.from_pretrained(model_path) return tokenizer

3.2 添加对应的num_layers参数

这里还有一种方法就是通过给model_type传递给本地模型所在的路径。同时传递num_layers参数来指定。

原因是因为其实Transformers里面的xxx.from_pretrained方法其实也是可以支持你配置本地路径来加载的,这里加载模型也不会有问题。但是在bert_score中他是需要提前知道层数来优化计算过程的。这里才是报错的原因。

这一部分代码是在utils文件中。

def calculate_bert_score(original_text: str, polished_text: str, lang: str = "zh",model_type:str=None) -> float: try: # 使用bert_score计算F1分数 score_params = { "verbose": False, "device": "cuda" if torch.cuda.is_available() else "cpu" } if model_type is None: score_params["model_type"] = BERT_MODEL_PATH #指定模型路径 score_params["num_layers"] = BERT_BASE_CHINESE_NUM_LAYERS#执行模型层数(12) else: score_params["model_type"] = model_type P, R, F1 = score([polished_text], [original_text], **score_params) # 返回F1分数(转换为Python float) f1_score = F1.item() if hasattr(F1, 'item') else float(F1) return f1_score except Exception as e: print(f"计算bert_score时出错: {str(e)}") # 如果计算失败,返回一个默认值或者抛出异常 raise
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/1 5:14:46

TCP/IP协议

一、什么是TCP/IP协议&#xff1f;指能够在多个不同网络间实现信息传输的协议簇。TCP/IP协议不仅仅指的是TCP 和IP两个协议&#xff0c;而是指一个由FTP、SMTP、TCP、UDP、IP等协议构成的协议簇&#xff0c; 只是因为在TCP/IP协议中TCP协议和IP协议最具代表性&#xff0c;所以被…

作者头像 李华
网站建设 2026/4/6 13:59:40

Qwen-Image-Edit-2509显存优化实战

Qwen-Image-Edit-2509显存优化实战 ——让专业级图像编辑在单卡上“轻装上阵” 电商主图一键换色、社媒配图秒级改稿&#xff0c;早已不是新鲜事。真正让人头疼的&#xff0c;是背后那个动不动就爆显存的AI模型&#xff1a;刚加载完Qwen-Image-Edit-2509&#xff0c;还没开始推…

作者头像 李华
网站建设 2026/4/13 10:08:21

EmotiVoice:支持多音色与情感的开源TTS引擎

EmotiVoice&#xff1a;让文字“活”起来的开源情感语音引擎 你有没有想过&#xff0c;一段冰冷的文字可以带着笑意朗读出来&#xff1f;或者一条系统提示音竟能流露出温柔的关怀&#xff1f;在人机交互越来越频繁的今天&#xff0c;声音早已不只是信息传递的工具——它正在成…

作者头像 李华
网站建设 2026/4/13 10:52:28

ComfyUI入门到进阶:AI绘画节点工作流详解

ComfyUI入门到进阶&#xff1a;AI绘画节点工作流详解 在AI生成图像的浪潮中&#xff0c;工具的演进正从“谁更能出图”转向“谁能更精准地控制创作流程”。如果你曾为WebUI里反复调整参数却难以复现理想结果而烦恼&#xff0c;或许该看看ComfyUI——这个正在被越来越多专业创作…

作者头像 李华
网站建设 2026/4/4 10:16:02

企业级AI客服系统搭建首选——LobeChat镜像全面解读

企业级AI客服系统搭建首选——LobeChat镜像全面解读 在今天的企业数字化转型浪潮中&#xff0c;客户对响应速度和服务质量的期待空前提高。一个能724小时在线、秒级响应、精准解答问题的智能客服系统&#xff0c;早已不再是“锦上添花”&#xff0c;而是提升客户满意度与降低运…

作者头像 李华