我正在做一个实验,我需要比较几种垃圾邮件过滤分类算法的分类性能,即。朴素贝叶斯、SVM、J48、k-NN、RandomForests 等。我正在使用 WEKA 数据挖掘工具。在阅读文献时,我了解了各种降维方法,可以大致分为两种类型 -
- 特征缩减:主成分分析、潜在语义分析等。
- 特征选择:卡方、InfoGain、GainRatio等。
我还在他的博客中阅读了 Jose Maria 的 WEKA 教程:http: //jmgomezhidalgo.blogspot.com.es/2013/02/text-mining-in-weka-revisited-selecting.html
在这篇博客中,他写道,“一个典型的文本分类问题,其中降维可能是一个大错误是垃圾邮件过滤”。所以,现在我很困惑在垃圾邮件过滤的情况下降维是否有用?
此外,我还阅读了有关文档频率和 TF-IDF 作为特征减少技术之一的文献。但我不确定它在分类过程中是如何工作和发挥作用的。
我知道如何使用 weka、链式过滤器和分类器等。我面临的问题是因为我对特征选择/减少(包括 TF-IDF)没有足够的了解我无法决定如何以及选择什么特征我应该将技术和分类算法结合起来,以使我的研究有意义。我也不知道应该与卡方、信息增益等一起使用的最佳阈值。
在 StringToWordVector 类中,我有一个 IDFTransform 选项,那么将其设置为 TRUE 并使用特征选择技术(比如 InfoGain)是否有意义?
请指导我,如果可能的话,请提供资源链接,我可以在其中详细了解降维并可以有意义地计划我的实验!