0

在大规模数据挖掘基准研究的背景下,我比较了 9 个数据集上的 15 种算法,得出了 135 种算法/数据集组合。该研究是使用 WEKA 完成的。

我最后的分析是关于特征选择的影响。我知道,没有完美的特征选择算法,但最佳选择取决于要部署的算法和将应用它的数据集。

尽管为每种组合找到最佳特征选择算法的问题很大,但我正在寻找那些被认为总体上表现出良好性能的算法,可以说是“全能者”。到目前为止,我发现CFS(基于相关性的特征选择)、基于ReliefF一致性的子集评估(Hall / Holmes 2002)的推荐是一个普遍不错的选择,以及调查中的注释,这些方法与Rankers一样简单(例如相关系数)证明非常有效(Guyon / Ellissef 2003)。

是否有一个很好的基准研究,一些其他研究表明在实践中使用哪些方法或使用哪些方法?

4

1 回答 1

0

从文本分类的角度来看,Yang 等人有一篇文章。比较不同的特征选择算法(卡方、文档频率和信息增益)。

虽然它专注于文本(即文档频率根本不适用于您),但其他可能取决于您的功能的性质(即,二进制与否,始终存在,......)

我希望这有帮助。

于 2013-09-18T11:26:57.063 回答