我是 sklearn 和机器学习的新手。我有一个 csv 文件,其中包含以下类型的映射: ID-2001-0001, ID-category_1 ID-2002 - 0002, ID-category_2 。. 我有大约 1010 个唯一 ID 和 123 个唯一类别。现在,我希望对大约 1000 个其他 ID 进行分类。对于我想为 800/1010 已经分类的 ID 训练分类器。我正在使用sklearn。使用 SVM,我对剩余的 200 个 ID 得到了相同的预测。使用 GradientBoosting 我得到了 1.4% 的准确率。这是因为数据量小吗?基本上,我将 100 维向量和 ID-2001-0001 (word2vec) 及其对应的类别传递给 fit 方法。
from sklearn.ensemble import GradientBoostingClassifier
clf = GradientBoostingClassifier()
clf = GradientBoostingClassifier()
clf.fit(IDVectorMatrix,categoryMatrix) #IDVectorMatrix is 100-dimensional matrix from pre-trained word2vec model. model['ID-2001-0001']
result = clf.predict(categoryTestingMatrix)
我做这个分类对吗?还是我错过了什么?感谢任何帮助。谢谢