0

我想执行多标签分类。A 有一个我加载的 arff 格式的数据集。但是我现在不知道如何将导入数据转换为 X 和 y 向量以应用 sklearn/train_test_split。

我怎样才能得到 X 和 y?

data, meta = scipy.io.arff.loadarff('../yeast-train.arff')
df = pd.DataFrame(data)

#Get X, y
X, y = ??? <---

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
4

1 回答 1

0

好的。它是一个多标签数据,其中特征在列中Att1, Att2, Att3.... Att20,目标在列中Class1, Class2, .... Class14

因此,您需要使用这些列来获取 X 和 y。像这样做:

# Fill the .... with all other column names
feature_cols = ['Att1', 'Att2', 'Att3', 'Att4', 'Att5' ....   'Att20']
target_cols = ['Class1', 'Class2', 'Class3', 'Class4', ....   'Class14']

X, y = df[feature_cols], df[target_cols]
于 2017-09-07T09:08:10.977 回答