你好,
如何为给定的数据集(文本数据)选择最适合的特征选择方法?
例如,在 Weka 中,有几种属性选择方法(CfsSubsetEval、ChiSquaredAttributeEval、...等)和几种搜索方法(bestfirst、greedy、ranker ...等)。
我的问题:我怎么知道哪种属性选择方法和搜索方法最适合给定数据集?!
我的猜测:我应该在应用特征选择过滤器后使用交叉验证来测试数据集吗?例如,这意味着如果我有 10 种属性选择方法和 10 种搜索方法,我将需要执行 100 次交叉验证测试,然后选择准确度最高的配置!!!!!!!!!我在这里假设我只针对一个分类器进行测试。那么如果我有 2 个分类器(SMO 和 J48),我需要执行 200 次交叉验证测试吗?!
如果我误解了什么,请纠正我...