scikit-learn - 为什么 scikit 学习返回对数密度？

Question

sklearn.neighbors.kde.KernelDensity 的函数 score_samples返回密度的对数。与返回它自身的密度相比，它有什么优势？

我知道对数对于介于 0 和 1 之间的概率是有意义的（参见这个问题：为什么在 GaussianNB [scikit-learn] 中使用对数概率估计？）但是为什么你对介于 0 和 1 之间的密度做同样的事情无穷？

有没有办法直接估计对数密度，还是只是从估计的密度中取对数？

score 2 · Accepted Answer

只要密度处处为正，对数的定义就很好。当密度趋于 0 时，它具有更好的数值分辨率和稳定性。想象一个具有一定宽度的高斯核来模拟您的点并将它们想象成某个集群中的某个位置。当您离开这个密集区域时，对数密度等于到集群的负平方距离。它的指数将很快产生非常小的数量，你可能不再信任这些数量。

1 回答 1