0

我有以术语为维度的文档术语数据。我必须根据条款执行特征选择,并且我打算使用互信息作为执行特征选择的度量。我的疑问是,在计算所有可能对之间的互信息之后要做什么?我应该设置一个阈值并选择落在阈值内的所有项吗?

4

1 回答 1

1

如果你想使用互信息,你可以考虑使用 mRMR 算法。您可以使用此类算法选择特征。我的意思是说:

You have n features at your data set (it means n dimensions)

如果你想用最有意义的

k of n (k < n)

您可以使用特征选择(即使用互信息背景的mRMR)

决定k取决于某些情况。

  • 其中之一是您不想在模型创建时使用不必要的功能。

  • 另一件事是您想避免计算成本并从数据集中删除一些特征

您应该在删除某些功能后测试您的算法。您检查准确性是否会提高,并且根据您的目标,即使准确性会下降,是否会避免计算成本(因此您可能也想消除一些功能)

另一方面,我建议您查看特征提取方法,即 PCA 和 LDA(特别是针对您的情况)。

于 2013-03-06T13:17:08.447 回答