2

我正在尝试优化我的 SVM,使用交叉验证来估计我的性能。

似乎更改 C 参数无济于事 - 怎么会?

from sklearn import cross_validation
from sklearn import svm
for C in [0.1, 0.5, 1.0, 2.0, 4.0]:
    clf = svm.SVC(kernel='linear', C=C)
    scores = cross_validation.cross_val_score(clf, X, y, cv=6, n_jobs = -1)
    print C, scores

结果是

> 0.1 [ 0.88188976  0.85826772  0.90118577  0.90909091  0.8972332   0.86561265]
> 0.5 [ 0.88188976  0.85826772  0.90118577  0.90909091  0.8972332   0.86561265]
> 1.0 [ 0.88188976  0.85826772  0.90118577  0.90909091  0.8972332   0.86561265]
> 2.0 [ 0.88188976  0.85826772  0.90118577  0.90909091  0.8972332   0.86561265]
> 4.0 [ 0.88188976  0.85826772  0.90118577  0.90909091  0.8972332   0.86561265]
4

1 回答 1

3

这些似乎是价值的微小变化C以查看任何差异的方式。尝试一组

C = [ 10**x for x in xrange(10) ]

为了检查一切是否正常,您应该打印模型,而不仅仅是结果。您的 SVC 对象包含有关支持向量的信息 - 只需打印它们即可查看,这些变化C确实会影响算法训练 SVM 的方式。

对于线性内核,您可以打印:

print clf.coef_
print clf.intercept_

对于非线性内核:

print clf.dual_coef_
print clf.support_vectors_
print clf.intercept_
于 2013-11-03T21:25:41.257 回答