decision-tree - 对 KL 散度和特征选择的直觉

Question

我很难理解 KL 散度以及如何将其用于特征选择。因此，假设我有一组观察值（例如零和一）和为每个观察生成的 2 个特征。我现在的问题是：为什么功能是“最好的”？

我知道我可以使用 KL 散度（由 $$D_{KL} = \sum_i p(i) \log \frac{p(i)}{q(i)}$$ 给出），但是什么是 P，什么是是Q吗？我的直觉说 P 是例如特征 1，Q 是真实分布（因此是零和一的集合），但我也理解一个好的特征可以最大化 KL 散度。但是，如果 Q 是类的实际分布，那么您希望将其最小化，对吗？那么特征分布在实际分布上不会出错吗？

score 0 · Accepted Answer

KL散度用于特征选择，因为目标的边际概率中的熵减少了给定特征的目标熵：

I(t ; f) = H(t)-H(t|f)

换句话说，它计算目标边缘与特征的乘积的 KL 散度及其联合概率。

I(t ; f) = KL(p(t,f)||p(t)*p(f))

在这里找到更多。

score 0 · Accepted Answer

0

KL散度与互信息具有相同的公式。互信息解释了变量之间的相关性。

于 2016-08-29T22:44:10.397 回答

decision-tree - 对 KL 散度和特征选择的直觉

2 回答 2

Related

Reference