我有一个具有唯一标识符和其他功能的数据集。看起来像这样
ID LenA TypeA LenB TypeB Diff Score Response 123-456 51 M 101 L 50 0.2 0 234-567 46 S 49 S 3 0.9 1 345-678 87 M 70 M 17 0.7 0
我把它分成训练和测试数据。我正在尝试将测试数据从训练数据训练的分类器中分为两类。我想要训练和测试数据集中的标识符,以便可以将预测映射回 ID。
有没有一种方法可以像在 Azure ML Studio 或 SAS 中那样将标识符列分配为 ID 或非预测变量?
我正在使用DecisionTreeClassifier
来自 Scikit-Learn 的。这是我用于分类器的代码。
from sklearn import tree
clf = tree.DecisionTreeClassifier()
clf = clf.fit(traindata, trainlabels)
如果我只是将 ID 包含在 中traindata
,则代码会引发错误:
ValueError: invalid literal for float(): 123-456