我正在使用 Weka 的 GUI 对文本文档进行分类。我的数据集是 .arff 格式。
我应用 StringToWordVector 过滤器。然后,我应用 RemovePercentage 过滤器将我的数据集划分为训练集和测试集。它总共包含 99 个实例和 934 个属性。训练-测试拆分后,训练集包含 66 个实例,测试集包含 33 个实例。
我在训练集中学习模型:结果是 100% 作为准确率然后,我测试在测试集上学习的模型:结果是 3.0303 %。
谁能帮我理解为什么我得到 3.0303 % 以及如何改进这个结果?