python - Sklearn - 如何预测所有目标标签的概率

Question

我有一个带有目标变量的数据集，该变量可以有 7 个不同的标签。我的训练集中的每个样本只有一个目标变量标签。

对于每个样本，我想计算每个目标标签的概率。所以我的预测将包括每行的 7 个概率。

在 sklearn 网站上，我阅读了有关多标签分类的信息，但这似乎不是我想要的。

我尝试了以下代码，但这仅给每个样本一个分类。

from sklearn.multiclass import OneVsRestClassifier
clf = OneVsRestClassifier(DecisionTreeClassifier())
clf.fit(X_train, y_train)
pred = clf.predict(X_test)

有人对此有什么建议吗？谢谢！

score 17 · Accepted Answer

您可以通过简单OneVsRestClassifer地predict_proba删除DecisionTreeClassifier. 您可以执行以下操作：

clf = DecisionTreeClassifier()
clf.fit(X_train, y_train)
pred = clf.predict_proba(X_test)

这将为您提供 7 个可能类别中的每一个的概率。

希望有帮助！

score 3 · Accepted Answer

您可以尝试使用scikit- multilearn - 处理多标签分类的 sklearn 的扩展。如果您的标签没有过度相关，您可以为每个标签训练一个分类器并获得所有预测 - 尝试（在pip install scikit-multilearn之后）：

from skmultilearn.problem_transform import BinaryRelevance    
classifier = BinaryRelevance(classifier = DecisionTreeClassifier())

# train
classifier.fit(X_train, y_train)

# predict
predictions = classifier.predict(X_test)

在您的情况下，预测将包含一个大小为 (n_samples, n_labels) 的稀疏矩阵 - n_labels = 7，每列包含所有样本的每个标签的预测。

如果您的标签是相关的，您可能需要更复杂的多标签分类方法。

免责声明：我是 scikit-multilearn 的作者，请随时提出更多问题。

score 2 · Accepted Answer

如果您坚持使用OneVsRestClassifer，那么您也可以调用predict_proba(X_test)，因为它也支持OneVsRestClassifer。

例如：

from sklearn.multiclass import OneVsRestClassifier
clf = OneVsRestClassifier(DecisionTreeClassifier())
clf.fit(X_train, y_train)
pred = clf.predict_proba(X_test)

您获得结果的标签的顺序可以在以下位置找到：

clf.classes_

python - Sklearn - 如何预测所有目标标签的概率

3 回答 3

Related

Reference