2

你好,

如何为给定的数据集(文本数据)选择最适合的特征选择方法?

例如,在 Weka 中,有几种属性选择方法(CfsSubsetEval、ChiSquaredAttributeEval、...等)和几种搜索方法(bestfirst、greedy、ranker ...等)。

我的问题:我怎么知道哪种属性选择方法和搜索方法最适合给定数据集?!

我的猜测:我应该在应用特征选择过滤器后使用交叉验证来测试数据集吗?例如,这意味着如果我有 10 种属性选择方法和 10 种搜索方法,我将需要执行 100 次交叉验证测试,然后选择准确度最高的配置!!!!!!!!!我在这里假设我只针对一个分类器进行测试。那么如果我有 2 个分类器(SMO 和 J48),我需要执行 200 次交叉验证测试吗?!

如果我误解了什么,请纠正我...

4

3 回答 3

4

您可以尝试信息增益或主成分分析,以确定哪些特征为您的分类添加最多(信息增益)或具有最高方差(PCA)。

您也可以使用您提到的技术。但是无论您做什么,您都必须对其进行评估以查看它的效果,这可能会很痛苦或很有趣,具体取决于您的看法:-)

于 2013-01-08T22:34:45.047 回答
1

有不同种类的特征选择,包括过滤器和包装器方法。过滤器方法是独立于分类器的技术,用于根据距离、相关性或互信息选择特征。我建议您检查FEAST工具和mRMR

关于基于特定分类器性能的包装器模型,您无需枚举您拥有的所有搜索方法。您修复了一种搜索方法并应用您帖子中建议的比较。

于 2013-01-09T03:47:31.527 回答
1

您应该在整个数据集上构建模型,然后执行特征选择 (FS)。如果您有多个模型,您可以通过参考 RMSE 或 MSE 来缩放特征重要性。如果您熟悉 R,请尝试使用 google 搜索“随机森林和特征选择”。

于 2013-01-09T10:01:24.170 回答