1

我正在使用 Weka 的 GUI 对文本文档进行分类。我的数据集是 .arff 格式。

我应用 StringToWordVector 过滤器。然后,我应用 RemovePercentage 过滤器将我的数据集划分为训练集和测试集。它总共包含 99 个实例和 934 个属性。训练-测试拆分后,训练集包含 66 个实例,测试集包含 33 个实例。

我在训练集中学习模型:结果是 100% 作为准确率然后,我测试在测试集上学习的模型:结果是 3.0303 %。

谁能帮我理解为什么我得到 3.0303 % 以及如何改进这个结果?

4

1 回答 1

2

朴素贝叶斯学习的模型是过拟合的。您可以尝试不同的训练/测试拆分(或交叉验证)来防止这种情况。您也可以尝试调整朴素贝叶斯算法的参数或使用不同的参数。

于 2012-03-06T21:19:56.103 回答