jiwer是一个专门用于评估自动语音识别(ASR)系统性能的 Python 库。它的核心作用就是计算模型识别出的文本(假设,Hypothesis)与真实正确的文本(参考,Reference)之间的差异,以此来量化语音识别的准确率。
它最核心的评估指标是词错误率(WER, Word Error Rate)。计算逻辑很简单,它会自动找出将识别结果“编辑”成标准答案所需的最少操作步骤(替换、删除、插入),然后计算一个错误比例。
举个直观的例子,你就明白了:
from jiwer import wer reference = "hello world" hypothesis = "hello duck" error = wer(reference, hypothesis) # 结果将是 0.5,表示有50%的词识别错了除了 WER,jiwer 还提供了字符错误率(CER)、匹配错误率(MER)等其他评估指标,并且支持在计算前对文本进行标准化预处理(比如统一转为小写、移除标点符号等),让评估结果更稳定