2

我正在为一个实际问题研究两种特征选择算法,其中样本大小为 30,特征大小为 80。第一个算法是使用 SVM 分类器的包装器前向特征选择,第二个是使用 Pearson 积矩相关性的过滤器特征选择算法系数和 Spearman 等级相关系数。事实证明,这两种算法选择的特征根本没有重叠。合理吗?这是否意味着我在实施中犯了错误?谢谢你。仅供参考,我正在使用 Libsvm + matlab。

4

2 回答 2

2

这肯定会发生,因为两种策略都没有相同的表达能力。

如果您想要预测的最佳特征子集,请信任包装器;如果您想要链接到输出/预测变量的所有特征,请信任相关性。这些子集可能完全不同,尤其是当您有许多冗余功能时。

使用最高相关特征是一种策略,它假设特征和输出/预测变量之间的关系是线性的(或者在 Spearman 等级相关的情况下至少是单调的),并且特征在统计上彼此独立,并且不相互“互动”。在现实世界的问题中,这些假设最常被违反。

相关性或其他“过滤器”(例如互信息)更好地用于过滤掉特征,以决定不考虑哪些特征,而不是决定要考虑哪些特征。当初始特征计数非常大(数百、数千)时,过滤器是必要的,以减少后续包装算法的工作量。

于 2013-11-04T07:05:42.860 回答
0

根据数据的分布,您可以使用 spearman 或 pearson。后者用于正态分布,而前者用于非正态分布。找到分布并使用合适的分布。

于 2015-06-06T13:29:05.487 回答