别再只盯着准确率了！用Python的sklearn快速计算精确率、召回率和F1分数（附代码示例）-洪萨配资

机器学习模型评估：超越准确率的实战指南

刚接触机器学习分类任务时，我们很容易被"准确率"这个看似直观的指标迷惑。记得我第一次用逻辑回归做垃圾邮件分类，看到95%的准确率时差点欢呼——直到发现模型把所有邮件都预测为"非垃圾邮件"。这就像用一把刻度模糊的尺子测量，看似精准实则毫无意义。本文将带你用Python的sklearn库，重新认识那些真正反映模型能力的指标。

1. 为什么准确率会"说谎"？

准确率(Accuracy)的计算公式简单明了：(正确预测数)/(总样本数)。但正是这种简单，在不平衡数据集中埋下了陷阱。假设我们有一个1000条邮件的数据集：

垃圾邮件：50条
非垃圾邮件：950条

如果一个模型将所有邮件都预测为"非垃圾邮件"，它的准确率是多少？950/1000=95%！这个数字看起来很漂亮，但实际上这个模型根本不会识别垃圾邮件。

更合理的评估指标组合应该包括：

精确率(Precision)：预测为正的样本中，实际为正的比例
召回率(Recall)：实际为正的样本中，被正确预测的比例
F1分数：精确率和召回率的调和平均数

from sklearn.metrics import confusion_matrix # 假设我们有如下预测结果 y_true = [1, 0, 1, 1, 0, 1] # 真实标签 y_pred = [1, 0, 0, 1, 0, 0] # 预测标签 tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel() print(f"真负例(TN):{tn}, 假正例(FP):{fp}, 假负例(FN):{fn}, 真正例(TP):{tp}")

2. 精确率与召回率的实战计算

精确率和召回率就像分类模型的两个不同视角。精确率关注"预测的质量"，而召回率关注"覆盖的广度"。在sklearn中，我们可以用几种方式计算这些指标：

2.1 单独计算各项指标

from sklearn.metrics import precision_score, recall_score, f1_score precision = precision_score(y_true, y_pred) recall = recall_score(y_true, y_pred) f1 = f1_score(y_true, y_pred) print(f"精确率: {precision:.2f}, 召回率: {recall:.2f}, F1分数: {f1:.2f}")

2.2 使用classification_report

更全面的方法是使用classification_report，它会一次性输出所有关键指标：

from sklearn.metrics import classification_report print(classification_report(y_true, y_pred))

输出示例：

precision recall f1-score support 0 1.00 0.67 0.80 3 1 0.50 1.00 0.67 2 accuracy 0.75 5 macro avg 0.75 0.83 0.73 5 weighted avg 0.83 0.75 0.75 5

2.3 指标选择取决于业务场景

不同场景下，我们关注的侧重点也不同：

应用场景	重点指标	原因
垃圾邮件检测	高精确率	用户不希望正常邮件被误判
疾病筛查	高召回率	宁可误报也不漏掉潜在病例
金融风控	平衡F1分数	需要兼顾准确识别和全面覆盖

3. ROC曲线与AUC的深度解析

ROC曲线是评估分类模型性能的强大工具，它展示了在不同阈值下真正例率(TPR)和假正例率(FPR)的变化关系。

3.1 绘制ROC曲线

from sklearn.metrics import roc_curve, auc import matplotlib.pyplot as plt # 假设我们有预测概率 y_scores = [0.8, 0.2, 0.6, 0.7, 0.3, 0.9] fpr, tpr, thresholds = roc_curve(y_true, y_scores) roc_auc = auc(fpr, tpr) plt.figure() plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'ROC曲线 (AUC = {roc_auc:.2f})') plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--') plt.xlabel('假正例率(FPR)') plt.ylabel('真正例率(TPR)') plt.title('ROC曲线示例') plt.legend(loc="lower right") plt.show()

3.2 解读ROC曲线

对角线(随机猜测)：AUC=0.5，模型没有区分能力
完美模型：AUC=1.0，左上角顶点
实际模型：曲线越靠近左上角越好

AUC值可以理解为：随机选取一个正样本和一个负样本，模型对正样本的预测概率高于负样本的概率。

4. 多分类问题的评估策略

当面对多分类问题时，我们有两种主要的平均策略：

4.1 宏平均(Macro Average)

对每个类别的指标单独计算后取平均，平等对待所有类别：

from sklearn.metrics import precision_recall_fscore_support metrics = precision_recall_fscore_support(y_true, y_pred, average='macro') print(f"宏平均 - 精确率: {metrics[0]:.2f}, 召回率: {metrics[1]:.2f}, F1: {metrics[2]:.2f}")

4.2 加权平均(Weighted Average)

考虑每个类别的样本量权重，更反映整体表现：

metrics = precision_recall_fscore_support(y_true, y_pred, average='weighted') print(f"加权平均 - 精确率: {metrics[0]:.2f}, 召回率: {metrics[1]:.2f}, F1: {metrics[2]:.2f}")

4.3 选择策略的考量因素

策略类型	适用场景	优点	缺点
宏平均	各类别同等重要	不受类别不平衡影响	可能低估多数类性能
加权平均	希望反映整体数据分布	更贴近实际业务表现	可能掩盖少数类问题
微平均	关注全体样本的总体表现	适用于极度不平衡数据	对罕见类别不敏感