weka - 为什么 weka 中的分类模型将所有实例预测为一个类？

Question

我已经使用 weka 建立了一个分类模型。我有两个类，即 {spam,non-spam} 应用 stringtowordvector 过滤器后，我得到了 19000 条记录的 10000 个属性。然后我使用 liblinear 库来构建模型，它给我的 F 分数如下： Spam-94% non-spam-98%

当我使用相同的模型来预测新实例时，它会将所有这些实例都预测为垃圾邮件。此外，当我尝试使用与训练集相同的测试集时，它也将它们都预测为垃圾邮件。我在精神上筋疲力尽地找到问题。任何帮助将不胜感激。

score 0 · Accepted Answer

我也经常弄错。然后我观看此视频以提醒自己它是如何完成的：https ://www.youtube.com/watch?v= Tggs3Bd3ojQ Witten 教授，Weka 开发人员/架构师之一，展示了如何使用FilteredClassifier（依次配置在训练数据集和测试集上正确加载 StringToWordVector 过滤器。

这是针对 weka 3.6、weka 3.7 显示的。可能略有不同。

ZeroR 给你什么？如果它接近 100%，那么您知道任何分类算法也应该不会太远。

为什么要针对 F-Measure 进行优化？只是问问而已。我从来没有使用过这个，也不太了解它。（假设您的垃圾邮件比非垃圾邮件多得多，我会针对“精确度”指标进行优化）。

weka - 为什么 weka 中的分类模型将所有实例预测为一个类？

1 回答 1

Related

Reference