data-mining - 垃圾邮件过滤中的降维

Question

我正在做一个实验，我需要比较几种垃圾邮件过滤分类算法的分类性能，即。朴素贝叶斯、SVM、J48、k-NN、RandomForests 等。我正在使用 WEKA 数据挖掘工具。在阅读文献时，我了解了各种降维方法，可以大致分为两种类型 -

在这篇博客中，他写道，“一个典型的文本分类问题，其中降维可能是一个大错误是垃圾邮件过滤”。所以，现在我很困惑在垃圾邮件过滤的情况下降维是否有用？

此外，我还阅读了有关文档频率和 TF-IDF 作为特征减少技术之一的文献。但我不确定它在分类过程中是如何工作和发挥作用的。

我知道如何使用 weka、链式过滤器和分类器等。我面临的问题是因为我对特征选择/减少（包括 TF-IDF）没有足够的了解我无法决定如何以及选择什么特征我应该将技术和分类算法结合起来，以使我的研究有意义。我也不知道应该与卡方、信息增益等一起使用的最佳阈值。

在 StringToWordVector 类中，我有一个 IDFTransform 选项，那么将其设置为 TRUE 并使用特征选择技术（比如 InfoGain）是否有意义？

请指导我，如果可能的话，请提供资源链接，我可以在其中详细了解降维并可以有意义地计划我的实验！

score 0 · Accepted Answer

好吧，朴素贝叶斯似乎最适合垃圾邮件过滤，但它在降维方面表现不佳。

许多降维方法试图识别最高方差的特征。这当然对垃圾邮件检测没有太大帮助，您需要区分功能。

另外，不仅有一种类型的垃圾邮件，而且还有很多。这可能就是为什么朴素贝叶斯比许多其他假设只有一种垃圾邮件的方法更有效的原因。

1 回答 1