python - 如何使用 sklearn.metrics 计算多标签分类任务的微观/宏观度量？

Question

我有一个多标签分类器产生的结果，我想在 python 中计算微观和宏观精度、召回和 F1 分数sklearn.metrics，但不能完全弄清楚如何。

我有两个二进制稀疏矩阵，dataOUT它们dataGT分别代表同一数据集的分类结果和基本事实。两个矩阵的大小都是nLabels X nSamples。每个样本都可以用一个或多个标签进行标记，如果分类器用th 标签标记样本，则dataOUT[i,j]也是如此，否则。1ji0

对于任何给定的类，我可以通过从中提取第行并将它们馈送到i来轻松计算常规精度、召回率和 F 分数，例如：idataOUTdataGTsklearn.metrics.precision_recall_fscore_support

import numpy as np
from sklearn.metrics import precision_recall_fscore_support

iLabel = 5 # some specific label

yOUT = np.asarray(dataOUT[iLabel,:].todense()).reshape(-1)
yGT = np.asarray(dataGT[iLabel,:].todense()).reshape(-1)

ps,rs,fs,ss = precision_recall_fscore_support(yGT,yOUT)
p = ps[1]   # Precision for iLabel
r = rs[1]   # Recall for iLabel
f1 = fs[1]  # F1 for iLabel

但是我如何计算整个数据集的微观和宏观度量，即如何获得单个微观（P，R，F）和单个宏观（P，R，F）三元组，(dataOUT,dataGT)而不是分别为每个标签？

谢谢！

score 1 · Accepted Answer

scikit-learn 中的大多数指标都支持多标签参数。 sklearn.metrics.precision_recall_fscore_support 如果文档说：

一维数组，或标签指示数组/稀疏矩阵

你可以只用整个 y 矩阵和地面真实矩阵来提供度量。但是这些矩阵必须具有形状 [n_samples, n_labels]，换句话说，该矩阵的每一行都必须对应于同一样本的一组标签，并且每一列都对应于某个标签。所以你应该转置你的矩阵。

ps,rs,fs,ss = precision_recall_fscore_support(dataGT.T, dataOUT.T)

另请阅读此多类和多标签分类

python - 如何使用 sklearn.metrics 计算多标签分类任务的微观/宏观度量？

1 回答 1

Related

Reference