在大规模数据挖掘基准研究的背景下,我比较了 9 个数据集上的 15 种算法,得出了 135 种算法/数据集组合。该研究是使用 WEKA 完成的。
我最后的分析是关于特征选择的影响。我知道,没有完美的特征选择算法,但最佳选择取决于要部署的算法和将应用它的数据集。
尽管为每种组合找到最佳特征选择算法的问题很大,但我正在寻找那些被认为总体上表现出良好性能的算法,可以说是“全能者”。到目前为止,我发现CFS(基于相关性的特征选择)、基于ReliefF和一致性的子集评估(Hall / Holmes 2002)的推荐是一个普遍不错的选择,以及调查中的注释,这些方法与Rankers一样简单(例如相关系数)证明非常有效(Guyon / Ellissef 2003)。
是否有一个很好的基准研究,一些其他研究表明在实践中使用哪些方法或使用哪些方法?