我正在从事与书面文本相关的分类任务,我想知道执行某种“特征选择”程序以改善分类结果有多重要。
我正在使用与该主题相关的许多功能(大约 40 个),但我不确定所有功能是否真的相关以及在哪些组合中。我正在使用 SVM (scikits) 和 LDAC (mlpy)。
如果一个混合了相关和不相关的特征,我认为我会得到很差的分类结果。我应该在分类之前执行“特征选择程序”吗?
Scikits 有一个基于树的 RFE 程序,可以对特征进行排序。使用基于树的 RFE 对特征进行排序以选择最重要的特征并使用 SVM(非线性)或 LDAC 执行实际分类是否有意义?或者我应该使用相同的分类器来实现某种包装方法来对特征进行排名(尝试用不同的特征组进行分类会非常耗时)?