2

更一般的问题,但因为我使用的是 R -> 标签

我的训练数据集有 15,000 个条目,其中大约 20 个我想用于正数据集 -> 构建 svm。我想使用剩余的重采样数据集作为我的负数据集,但我想知道,与负数据集采用相同的大小(大约 20)可能会更好,否则它会高度不平衡?在 1000 轮重采样后,是否有一种简单的方法来池化 R 中的分类器(基于集合)?(甚至是e1071包装)

后续问题:我想在之后为每个预测计算一个分数,只取概率乘以 100 可以吗?

谢谢

4

1 回答 1

0

您可以尝试“类权重”方法,在这种方法中,较小的类获得更多的权重,从而花费更多的成本来错误分类正标记类。

于 2013-11-30T18:36:10.293 回答