我正在为一个实际问题研究两种特征选择算法,其中样本大小为 30,特征大小为 80。第一个算法是使用 SVM 分类器的包装器前向特征选择,第二个是使用 Pearson 积矩相关性的过滤器特征选择算法系数和 Spearman 等级相关系数。事实证明,这两种算法选择的特征根本没有重叠。合理吗?这是否意味着我在实施中犯了错误?谢谢你。仅供参考,我正在使用 Libsvm + matlab。
问问题
518 次
2 回答
2
这肯定会发生,因为两种策略都没有相同的表达能力。
如果您想要预测的最佳特征子集,请信任包装器;如果您想要链接到输出/预测变量的所有特征,请信任相关性。这些子集可能完全不同,尤其是当您有许多冗余功能时。
使用最高相关特征是一种策略,它假设特征和输出/预测变量之间的关系是线性的(或者在 Spearman 等级相关的情况下至少是单调的),并且特征在统计上彼此独立,并且不相互“互动”。在现实世界的问题中,这些假设最常被违反。
相关性或其他“过滤器”(例如互信息)更好地用于过滤掉特征,以决定不考虑哪些特征,而不是决定要考虑哪些特征。当初始特征计数非常大(数百、数千)时,过滤器是必要的,以减少后续包装算法的工作量。
于 2013-11-04T07:05:42.860 回答
0
根据数据的分布,您可以使用 spearman 或 pearson。后者用于正态分布,而前者用于非正态分布。找到分布并使用合适的分布。
于 2015-06-06T13:29:05.487 回答