0

我很难理解 KL 散度以及如何将其用于特征选择。因此,假设我有一组观察值(例如零和一)和为每个观察生成的 2 个特征。我现在的问题是:为什么功能是“最好的”?

我知道我可以使用 KL 散度(由 $$D_{KL} = \sum_i p(i) \log \frac{p(i)}{q(i)}$$ 给出),但是什么是 P,什么是是Q吗?我的直觉说 P 是例如特征 1,Q 是真实分布(因此是零和一的集合),但我也理解一个好的特征可以最大化 KL 散度。但是,如果 Q 是类的实际分布,那么您希望将其最小化,对吗?那么特征分布在实际分布上不会出错吗?

4

2 回答 2

0

KL散度用于特征选择,因为目标的边际概率中的熵减少了给定特征的目标熵:

I(t ; f) = H(t)-H(t|f)

换句话说,它计算目标边缘与特征的乘积的 KL 散度及其联合概率。

I(t ; f) = KL(p(t,f)||p(t)*p(f))

在这里找到更多。

于 2022-01-16T05:07:19.623 回答
0

KL散度与互信息具有相同的公式。互信息解释了变量之间的相关性。

于 2016-08-29T22:44:10.397 回答