1

我需要在 sklearn 中训练 svm 分类器。特征向量的维度有数十万个,这样的特征向量有数万个。但是,每个维度可以是 0、1 或 -1。每个特征向量中只有大约 100 个是非零的。将有关特征向量的信息提供给分类器的任何有效方法?

4

1 回答 1

2

我需要在 sklearn 中训练 svm 分类器。

你的意思是sklearn.svm.SVC?对于高维稀疏数据和许多样本,、LinearSVC或可以更快地训练以获得可比较的预测精度。LogisticRegressionPassiveAggressiveClassifierSGDClassifier

特征向量的维度以十万为单位,这样的特征向量有数万个。但是,每个维度可以是 0、1 或 -1。每个特征向量中只有大约 100 个是非零的。将有关特征向量的信息提供给分类器的任何有效方法?

找到一种方法将数据加载为scipy.sparse不将零存储在内存中的矩阵。查看有关特征提取的文档。它将根据原始数据表示的性质为您提供执行此操作的工具。

于 2013-03-01T08:17:34.093 回答