2

我有一个数据集,负标记值的数量是正标记值数量的 163 倍,所以我有一个不平衡的数据集。我试过了:

model = svmtrain(trainLabels, trainFeatures, '-h 0 -b 1 -s 0 -c 10 -w1 163 -w-1 1');
[predicted_label, accuracy, prob_estimates] = svmpredict(testLabels, testFeatures, model, '-b 1');

准确率接近 99%,我搜索并发现:http ://agbs.kyb.tuebingen.mpg.de/km/bb/showthread.php?tid=376&page= 1 在帖子 #7 它说

您是否尝试过以较小的比例加权(即:<1)

我将其更改为:

model = svmtrain(trainLabels, trainFeatures, '-h 0 -b 1 -s 0 -c 10 -w1 0.5 -w-1 0.003');
[predicted_label, accuracy, prob_estimates] = svmpredict(testLabels, testFeatures, model, '-b 1');

由于数据不平衡,我每次仍然有很高的准确性。有任何想法吗?

PS:我正在尝试实施2008年KDD杯的第一个挑战-乳腺癌。我想按降序对候选人进行排名。

4

1 回答 1

0

这可能是由于你的负面和正面例子很难区分的原因。我将通过对多数类进行下采样并使用所有少数类示例来准备不同的数据集,然后在所有数据集上学习 svm。然后使用投票。这对我有用

于 2013-01-04T10:34:39.293 回答