我已经使用 weka 建立了一个分类模型。我有两个类,即 {spam,non-spam} 应用 stringtowordvector 过滤器后,我得到了 19000 条记录的 10000 个属性。然后我使用 liblinear 库来构建模型,它给我的 F 分数如下: Spam-94% non-spam-98%
当我使用相同的模型来预测新实例时,它会将所有这些实例都预测为垃圾邮件。此外,当我尝试使用与训练集相同的测试集时,它也将它们都预测为垃圾邮件。我在精神上筋疲力尽地找到问题。任何帮助将不胜感激。