我很难理解 KL 散度以及如何将其用于特征选择。因此,假设我有一组观察值(例如零和一)和为每个观察生成的 2 个特征。我现在的问题是:为什么功能是“最好的”?
我知道我可以使用 KL 散度(由 $$D_{KL} = \sum_i p(i) \log \frac{p(i)}{q(i)}$$ 给出),但是什么是 P,什么是是Q吗?我的直觉说 P 是例如特征 1,Q 是真实分布(因此是零和一的集合),但我也理解一个好的特征可以最大化 KL 散度。但是,如果 Q 是类的实际分布,那么您希望将其最小化,对吗?那么特征分布在实际分布上不会出错吗?