我正在使用 20NewsGroup 数据集进行文本分类,我使用了 20NewsGroup_ByDate 数据集。我提取此处提供的词干文档
http://web.ist.utl.pt/~acardoso/datasets/
我在 weka 中应用了 tf-idf 转换、信息增益特征选择和朴素贝叶斯进行分类。我的结果高于上面提到的页面上提到的结果(82%)。我想了很多并搜索了我可能犯的错误,但在使用他们处理过的文件时找不到任何错误。
我只需要应用 tf-idf,IG 和分类器。请向我提供见解,可能会导致比预期更高的准确性的错误是什么?