java - weka 中模型的奇怪结果

Question

我正在使用 Weka Gui - Explorer，我想根据类 {男性，女性} 对我的数据进行分类。我使用 MultiBoostAB 分类器和 REPTree 分类器作为基础。我正在尝试使用训练集（557 个实例）评估我的分类器的准确性

然后是一个包含大约 300 个属性的测试集（200 个实例）。准确率为 83.5% - 200 个实例中有 167 个正确分类，kappa 统计量为 0.67。我保存了这个模型并用它来预测

其他未知数据的标签（男性或女性）获得几乎相同的好结果。然后我将训练集的大小增加到 1000 个实例，看看我是否可以提高分类器的准确率。我得到以下结果：

（它将我的大部分数据预测为女性）为什么当我增加训练集的大小时我的模型会变得更糟？

score 1 · Accepted Answer

好吧，如果没有实际查看和分析您的训练数据，这真的很难说。

我的第一个猜测是您添加到训练集中的额外 443 个实例非常不同，因此分类器学习了一个完全不同的模型。

如果只在这 443 个实例上训练模型会发生什么？如果您的测试集的准确性更差，您知道您的训练数据可能不是最好的泛化数据。

1 回答 1