0

我有 4000 个特征和 35 个样本的数据集。所有特征都是 1 到 3 之间的浮点数。例如:2.68244527684596。

我正在努力让任何分类器处理这些数据。我使用过 knn、svm(带有线性、rbf、poly)。然后我了解了标准化。不过,这对我来说有点复杂,我无法让这段代码正常工作并给我正确的预测。

我用来规范化数据的代码是:

train_data = preprocessing.scale(train_data)
train_data = preprocessing.normalize(train_data,'l1',0)

我试图分类的代码是:

# SVM with poly
svc1 = svm.SVC(kernel='poly',degree=3)
svc1.fit(train_data[:-5], train_labels[:-5])
print "Poly SVM: ",svc1.predict(train_data[-5:])

# SVM with rbf
svc2 = svm.SVC(kernel='rbf')
svc2.fit(train_data[:-5], train_labels[:-5])
print "RBF SVM: ",svc2.predict(train_data[-5:])

#SVM with linear
svc3 = svm.SVC(kernel='linear')
svc3.fit(train_data[:-5], train_labels[:-5])
print "Linear SVM: ",svc3.predict(train_data[-5:])


# KNN
knn = KNeighborsClassifier()
knn.fit(train_data[:-5], train_labels[:-5])
print "KNN :", knn.predict(train_data[-5:])

# Linear regression
logistic = linear_model.LogisticRegression()
print('LogisticRegression score: %f' % logistic.fit(train_data[5:], train_labels[5:]).score(train_data[0:4], train_labels[0:4]))

我是机器学习的新手,我正在努力学习更多关于所有概念的知识。我想有人可能会指出我正确的方向。

注意:我只有 35 个样本,这是作业的一部分。我无法获得更多数据:(

4

1 回答 1

2

如果您的数据在任何意义上都不是特定的,那么标准化preprocessing.scale应该就可以了。它强制每个维度具有 0 均值和标准差 1,因此它或多或少会尝试将数据包含在以 0 为中心的球中。值得注意的是,您不应该使用normalize, normalize 强制每个样本具有单位范数,它必须由您的数据证明(因为您随后强制将您的点放置在球体上)。这种情况很少见。

您的分类器不起作用的原因可能有很多。特别是 - 它是您的测试代码吗?如果是这样的话:

  • 你不应该只测试 5 个样本,了解交叉验证(可在 scikit-learn 中获得)并运行至少 3 倍的 CV
  • 学习和测试各种超参数。SVM 至少需要其中的一个(取决于使用的内核,通常从 1 到 4 - 对于 RBF 内核,它的 C 和 gamma,对于 poly C,度数,coef0,...);KNN 约 3(k、公制、权重);逻辑回归至少 1(正则化)
  • 在构建分类器之前 - 查看您的数据。将其绘制在平面 (PCA) 上,尝试在每个特征上绘制投影 - 您的数据的特征是什么?是否平衡?
  • 最重要的是- 收集更多数据!您在 4000 维空间中有 35 个点......做任何事情的样本数量非常少......如果您不能获得至少 10 倍(最好是 100 倍)更多的点 - 首先将数据的维度降低到大多数 30 维......使用降维(甚至scikit-learn PCA)。
于 2015-11-10T20:06:26.520 回答