我正在使用 Weka Gui - Explorer,我想根据类 {男性,女性} 对我的数据进行分类。我使用 MultiBoostAB 分类器和 REPTree 分类器作为基础。我正在尝试使用训练集(557 个实例)评估我的分类器的准确性
然后是一个包含大约 300 个属性的测试集(200 个实例)。准确率为 83.5% - 200 个实例中有 167 个正确分类,kappa 统计量为 0.67。我保存了这个模型并用它来预测
其他未知数据的标签(男性或女性)获得几乎相同的好结果。然后我将训练集的大小增加到 1000 个实例,看看我是否可以提高分类器的准确率。我得到以下结果:
- 运行 360 个实例的测试集 --> 87.0423 % 正确分类的实例和 kappa 统计量 0,7335
- 运行 200 个实例的测试集 --> 59% 正确分类的实例和 kappa 统计量 0,18
(它将我的大部分数据预测为女性)为什么当我增加训练集的大小时我的模型会变得更糟?