matlab - 两个特征选择算法的结果不匹配

Question

我正在为一个实际问题研究两种特征选择算法，其中样本大小为 30，特征大小为 80。第一个算法是使用 SVM 分类器的包装器前向特征选择，第二个是使用 Pearson 积矩相关性的过滤器特征选择算法系数和 Spearman 等级相关系数。事实证明，这两种算法选择的特征根本没有重叠。合理吗？这是否意味着我在实施中犯了错误？谢谢你。仅供参考，我正在使用 Libsvm + matlab。

score 2 · Accepted Answer

这肯定会发生，因为两种策略都没有相同的表达能力。

如果您想要预测的最佳特征子集，请信任包装器；如果您想要链接到输出/预测变量的所有特征，请信任相关性。这些子集可能完全不同，尤其是当您有许多冗余功能时。

使用最高相关特征是一种策略，它假设特征和输出/预测变量之间的关系是线性的（或者在 Spearman 等级相关的情况下至少是单调的），并且特征在统计上彼此独立，并且不相互“互动”。在现实世界的问题中，这些假设最常被违反。

相关性或其他“过滤器”（例如互信息）更好地用于过滤掉特征，以决定不考虑哪些特征，而不是决定要考虑哪些特征。当初始特征计数非常大（数百、数千）时，过滤器是必要的，以减少后续包装算法的工作量。

score 0 · Accepted Answer

根据数据的分布，您可以使用 spearman 或 pearson。后者用于正态分布，而前者用于非正态分布。找到分布并使用合适的分布。

matlab - 两个特征选择算法的结果不匹配

2 回答 2

Related

Reference