algorithm - 删除嘈杂和冗余的功能

Question

我已经根据面部标记从视频序列中提取了特征，作为这些标记在视频序列上的平均值和标准差。他们需要根据这些标记分为四个不同的类别。

总的来说，我有一个大约 260 个功能的功能集。我应该如何确定我的集合中哪些特征是嘈杂和冗余的。我在一些研究论文中读到了它，其中一些使用了我认为非常合适的 plus l take away r 算法，但在这样的算法中，他们总是将一个特征与另一个特征进行比较，并说它与它相比是好是坏。我如何评价我的功能是好是坏？通常使用什么标准？

我研究了几天，但没有发现任何明确且有用的东西。将不胜感激，谢谢。

score 0 · Accepted Answer

你可以使用 pca 或者你可以训练一些分类器，然后你循环你的所有特征，为每个特征添加一个很大的值，测试这种改变是否改变了分类器的精度，如果没有，你可以在删除后删除这个特征所有冗余特征，然后重新训练你的分类器！

训练不是一个分类器而是训练很多分类器是一个好主意，它们会根据投票做出预测，您可以使用 matlab 中的 MODE 函数来执行此操作！

score 0 · Accepted Answer

将您的 260 功能视为 260 维房间的基础。但是，您的基向量彼此不正常，因此它们包含大量冗余信息。您想将这些向量转换为一个向量集，其中所有向量彼此垂直，从而在不丢失（很多）信息的情况下最小化维度。

这就是主成分分析所做的。

您也可能对线性判别分析感兴趣。

score 0 · Accepted Answer

使用分类率来确定特征子集的好坏程度。你有 260 个特征，然后有 2^260 个子集，这太多了！在这个空间中搜索非常困难。因此，最好通过过滤方法（例如 FA、t-test、fisher 和...）删除一些特征，然后使用您的搜索方法找到特征的最佳子集。加上 l 带走 r 算法（或其他搜索算法）找到各种子集并对其进行评分（在此阶段使用分类率），最后指定哪个子集更好。

algorithm - 删除嘈杂和冗余的功能

3 回答 3

Related

Reference