python - 如何在 Scikit-learn 中为多标签处理响应 OneVsRestClassifier

Question

我是 Scikit-learn 和分类的新手。我的任务是一个多标签分类问题。据我了解predict，返回的数组包含与n样本中的特征数量相同的元组。这是什么意思？如何获得严格的顺序和严格的预测值数量？因为x_test = X_train[0]输出Result [('a', 'c'), (), ()] 和x_test = X_train[0]输出Result [('a',), (), ()]

import numpy as np
from sklearn.svm import SVC
from sklearn.multiclass import OneVsRestClassifier
from sklearn.preprocessing import MultiLabelBinarizer

input_data = [
  [0, 2, 0, 'a', 'c'],
  [0, 2, 0, 'a', 'c'],
  [0, 2, 0, 'a', 'c'],
  [0, 1, 0, 'a', 'c'],
  [1, 2, 1, 'b', 'e'],
  [1, 2, 0, 'b', 'd'],
  [1, 2, 0, 'a', 'e'],
  [1, 2, 0, 'a', 'd'],
  [1, 1, 0, 'a', 'c']
]
X = [x[0:3] for x in input_data]
y = [x[-2:] for x in input_data]


X_train = np.array(X)
y_train = np.array(y)
mlb = MultiLabelBinarizer()
y_train = mlb.fit_transform(y_train)

classifier = OneVsRestClassifier(SVC())

classifier.fit(X_train, y_train)

x_test = X_train[0]
result = classifier.predict(x_test)
labels = mlb.inverse_transform(result)
print("Result %s" % labels)

score 0 · Accepted Answer

您的五个班级的结果是正面或负面的，因此，'a' 'c' 代表 test[0] 和 'a' 代表第二个班级。多标签分类的目的是按您的五个类别中的 0-5 个标记每个数据。

如果您需要严格的两个标签，您可以运行两个单标签分类，这可能就足够了。

python - 如何在 Scikit-learn 中为多标签处理响应 OneVsRestClassifier

1 回答 1

Related

Reference