微平均micro-F1,宏平均macro-F2计算方法

本文围绕多分类问题中F1值的计算展开。前提是读者已了解差准率和查全率概念,将多分类问题分解为多个二分类问题,介绍了宏平均(macro)和微平均(micro)计算F1值的过程,还提及加权F1值。最后对比宏平均和微平均,给出不同样本量情况下的使用建议。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

F1是我们常用的衡量指标,不知道有多少同学和我一样,对micro macro一直似懂非懂,于是今天手动算了一下,分享给大家~ 相信大家看了就明白了

本文的前提是,读者已经懂了precision和recall的基本概念,不清楚的同学可以先去看一下其他的文章~

差准率(precision)和查全率(recall)

对于二分类来说,可以将标签分为正类和负类,如下图

真实标签 \ 预测标签正类负类
正类True Positive (TP)False Negtive (FN)
负类False Positive (FP)True Negtive (TN)

precision = TP / (TP + FP)

recall = TP / (TP + FN)

F1 = (precision * recall * 2) / (precesion + recall)

对于多个类别的问题来说,可以将一个多分类问题看作多个二分类问题,比如按照狗的毛色划分为黄色,白色,黑色
于是,我们可以将这个三分类问题分解为3个二分类问题,每个二分类问题的正类和负类如下表

序号正类负类
白和黑
黄和黑
黄和白

因为我们有3组正类和负类,所以可以计算出三个TP 三个FP 三个FN 三个TN,然后使用micro或者macro的方法计算出一个总的F值~

计算过程

例子

sklearn中给的例子如下图 ,可以看出macro F1为0.26,micro F1 为0.33, weighted F1 为0.26

 
  1. >>> from sklearn.metrics import f1_score

  2. >>> y_true = [0, 1, 2, 0, 1, 2]

  3. >>> y_pred = [0, 2, 1, 0, 0, 1]

  4. >>> f1_score(y_true, y_pred, average='macro')

  5. 0.26...

  6. >>> f1_score(y_true, y_pred, average='micro')

  7. 0.33...

  8. >>> f1_score(y_true, y_pred, average='weighted')

  9. 0.26...

  10. >>> f1_score(y_true, y_pred, average=None)

  11. array([0.8, 0. , 0. ])

下面我们手动算一下,看看这几个数字是怎么得出来的

macro

首先我们来手动计算macro F1值

以label 0作为正类,label 1和label 2作为负类, 所对应的TP FN FP TN如下表

真实标签 \ 预测标签正类(label 0)负类(label 1 和 label 2)
正类(label 0)2 (TP)0 (FN)
负类(label 1 和 label 2)1 (FP)3 (TN)

那么这个表对应的P和R以及F1为:
P = 2 / ( 2 + 1) = 2 / 3
R = 2 / (2 + 0) = 1
F1 = (P * R * 2) / (P + R) = 0.8

以label 1作为正类,label 0和label 2作为负类, 所对应的TP FN FP TN如下表

真实标签 \ 预测标签正类(label 1)负类(label 0 和 label 2)
正类(label 1)0 (TP)2 (FN)
负类(label 0 和 label 2)2 (FP)2 (TN)

那么这个表对应的P和R以及F1为:
P = 0 / ( 0 + 2) = 0
R = 0 / (0 + 2) = 0
F1 = 0

以label 2作为正类,label 0和label 1作为负类, 所对应的TP FN FP TN如下表

真实标签 \ 预测标签正类(label 0)负类(label 1 和 label 2)
正类(label 0)0 (TP)2 (FN)
负类(label 1 和 label 2)1 (FP)4 (TN)

那么这个表对应的P和R以及F1为:
P = 0 / ( 0 + 1) = 0
R = 0 / (0 + 2) = 0
F1 = 0

 

 

macro F1 为上述三个F1值的算数平均数,所以
macro-F1 = (0.8 + 0 + 0) / 3 = 0.26...
这个结果和sklearn中返回的结果一致~

weighted F1值

由于macro F1为多个F1值的算数平均数,当样本不平衡的时候,macro F1会给所有类赋予相同的权重(在sklearn给的上述例子中就是都赋予1 / 3的权重)
在样本不平衡的时候,有时我们希望根据每个类别的样本数量,给不同的类赋予不同的权重,这就是weighted-F1,例如,假设一共有3个类,它们对应的数量分别为10,5,2
那么,在计算总的F1的时候,我们希望给三个类别的F1值赋予的权重为 10 / 17, 5 / 17, 2 / 17,于是,计算总F1的时候,将会把更多的权重给样本数量多的类.

在sklearn示例代码给的例子中,可以发现label 0,label 1, label 2对应的数量均为2,所以采用macro和weight方式计算的F1值都一样,为0.26

micro F1值

micro采用的方式为,

  • 将三个表格中的所有TP相加,得到总TP = 2 + 0 + 0 = 2
  • 将三个表格中的所有FN相加,得到总FN = 0 + 2 + 2 = 4
  • 将三个表格中的所有FP相加,得到总FP = 1 + 2 + 1 = 4

总P = 总TP / (总TP + 总FP) = 2 / (2 + 4) = 1 / 3
总R = 总TP / (总TP + 总FN) = 2 / (2 + 4) = 1 / 3
总F1 = (总P * 总R * 2) / (总P + 总R) = 1 / 3 = 0.33...
这与sklearn给的结果一致~

 

宏平均和微平均的对比

  1. 如果每个class的样本数量差不多,那么宏平均和微平均没有太大差异
  2. 如果每个class的样本数量差异很大,而且你想:
    • 更注重样本量多的class:使用宏平均
    • 更注重样本量少的class:使用微平均
  3. 如果微平均大大低于宏平均,检查样本量多的class
  4. 如果宏平均大大低于微平均,检查样本量少的class

https://blog.csdn.net/u011534057/article/details/54845298

https://blog.csdn.net/u014665013/article/details/80545180

### Micro-F1 指标的定义 Micro-F1 是一种综合评价分类器性能的指标,其核心在于全局统计所有类别的真正例 (True Positives, TP)、假正例 (False Positives, FP) 和假反例 (False Negatives, FN),并基于这些统计数据计算 Precision 和 Recall。最终,通过这两个值计算得出 F1 值。 具体来说,Micro-F1 的 Precision 和 Recall 可表示为: \[ Precision_{micro} = \frac{\sum_c{TP_c}}{\sum_c{(TP_c + FP_c)}} \] \[ Recall_{micro} = \frac{\sum_c{TP_c}}{\sum_c{(TP_c + FN_c)}} \] 其中 \(c\) 表示类别[^2]。由于 Micro-F1 统计的是全局数据,因此它能够反映整个数据集上的预测准确性。 --- ### Micro-F1计算方法 为了计算 Micro-F1,需先汇总所有类别的 TP、FP 和 FN 数据。以下是具体的计算流程: 1. **收集每种类别的混淆矩阵数据**:对于每个类别,记录对应的 TP、FP 和 FN 数量。 2. **求和各部分的数据**:将所有类别的 TP、FP 和 FN 分别累加起来。 3. **计算全局 Precision 和 Recall**:利用上述公式计算总体的 Precision 和 Recall。 4. **计算 F1 值**:根据以下公式计算 Micro-F1: \[ F1_{micro} = 2 \cdot \frac{Precision_{micro} \cdot Recall_{micro}}{Precision_{micro} + Recall_{micro}} \] 下面是一个简单的 Python 实现例子: ```python from sklearn.metrics import precision_recall_fscore_support def calculate_micro_f1(y_true, y_pred): p, r, f1, _ = precision_recall_fscore_support( y_true, y_pred, average='micro' ) return { 'precision': p, 'recall': r, 'f1_score': f1 } # 示例用法 y_true = [0, 1, 2, 0, 1, 2] y_pred = [0, 2, 1, 0, 0, 1] result = calculate_micro_f1(y_true, y_pred) print(result) ``` 此代码片段展示了如何使用 `sklearn` 库来快速计算 Micro-F1--- ### Micro-F1 的应用场景 Micro-F1 特别适合于处理类别不平衡的情况下的多分类问题。当某些类别样本数量远少于其他类别时,Micro-F1 能够更公平地衡量模型的整体表现,因为它关注的是全局的正确分类比例而非单个类别的表现。 此外,在一些特定领域中,例如自然语言处理中的实体识别任务或图像分割任务,Micro-F1 往往被作为主要评估标准之一,因其能有效捕捉到整体标签分配的质量。 需要注意的是,如果目标是对各个类别单独的表现进行细致分析,则 Macro-F1 或者 Weighted-F1 更合适[^1]。 --- ####
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值