scikit-learn - 多标签分类sklearn

翻译自：https://stackoverflow.com/questions/42708470 2017-03-10T01:18:31.190

345 次

我是 sklearn 和机器学习的新手。我有一个 csv 文件，其中包含以下类型的映射： ID-2001-0001, ID-category_1 ID-2002 - 0002, ID-category_2 。. 我有大约 1010 个唯一 ID 和 123 个唯一类别。现在，我希望对大约 1000 个其他 ID 进行分类。对于我想为 800/1010 已经分类的 ID 训练分类器。我正在使用sklearn。使用 SVM，我对剩余的 200 个 ID 得到了相同的预测。使用 GradientBoosting 我得到了 1.4% 的准确率。这是因为数据量小吗？基本上，我将 100 维向量和 ID-2001-0001 (word2vec) 及其对应的类别传递给 fit 方法。

from sklearn.ensemble import GradientBoostingClassifier
clf = GradientBoostingClassifier()
clf = GradientBoostingClassifier()
clf.fit(IDVectorMatrix,categoryMatrix)     #IDVectorMatrix is 100-dimensional matrix from pre-trained word2vec model. model['ID-2001-0001']
result = clf.predict(categoryTestingMatrix)

我做这个分类对吗？还是我错过了什么？感谢任何帮助。谢谢

scikit-learn - 多标签分类sklearn

0 回答 0

Related

Reference