3

我已经使用 weka 建立了一个分类模型。我有两个类,即 {spam,non-spam} 应用 stringtowordvector 过滤器后,我得到了 19000 条记录的 10000 个属性。然后我使用 liblinear 库来构建模型,它给我的 F 分数如下: Spam-94% non-spam-98%

当我使用相同的模型来预测新实例时,它会将所有这些实例都预测为垃圾邮件。此外,当我尝试使用与训练集相同的测试集时,它也将它们都预测为垃圾邮件。我在精神上筋疲力尽地找到问题。任何帮助将不胜感激。

4

1 回答 1

0

我也经常弄错。然后我观看此视频以提醒自己它是如何完成的:https ://www.youtube.com/watch?v= Tggs3Bd3ojQ Witten 教授,Weka 开发人员/架构师之一,展示了如何使用FilteredClassifier(依次配置在训练数据集和测试集上正确加载 StringToWordVector 过滤器。

这是针对 weka 3.6、weka 3.7 显示的。可能略有不同。

ZeroR 给你什么?如果它接近 100%,那么您知道任何分类算法也应该不会太远。

为什么要针对 F-Measure 进行优化?只是问问而已。我从来没有使用过这个,也不太了解它。(假设您的垃圾邮件比非垃圾邮件多得多,我会针对“精确度”指标进行优化)。

于 2015-05-19T16:44:10.777 回答