attributes - 特征选择/属性选择 - 整体表现良好

Question

在大规模数据挖掘基准研究的背景下，我比较了 9 个数据集上的 15 种算法，得出了 135 种算法/数据集组合。该研究是使用 WEKA 完成的。

我最后的分析是关于特征选择的影响。我知道，没有完美的特征选择算法，但最佳选择取决于要部署的算法和将应用它的数据集。

尽管为每种组合找到最佳特征选择算法的问题很大，但我正在寻找那些被认为总体上表现出良好性能的算法，可以说是“全能者”。到目前为止，我发现CFS（基于相关性的特征选择）、基于ReliefF和一致性的子集评估（Hall / Holmes 2002）的推荐是一个普遍不错的选择，以及调查中的注释，这些方法与Rankers一样简单（例如相关系数）证明非常有效（Guyon / Ellissef 2003）。

是否有一个很好的基准研究，一些其他研究表明在实践中使用哪些方法或使用哪些方法？

score 0 · Accepted Answer

从文本分类的角度来看，Yang 等人有一篇文章。比较不同的特征选择算法（卡方、文档频率和信息增益）。

虽然它专注于文本（即文档频率根本不适用于您），但其他可能取决于您的功能的性质（即，二进制与否，始终存在，......）

我希望这有帮助。

attributes - 特征选择/属性选择 - 整体表现良好

1 回答 1

Related

Reference