python - gaussian_filter 和 gaussian_kde 中 sigma 和带宽的关系

Question

如果适当地选择了每个函数中的和参数，则在给定的数据集上应用函数scipy.ndimage.filters.gaussian_filter和scipy.stats.gaussian_kde可以得到非常相似的结果。sigmabw_method

例如，我可以通过sigma=2.在gaussian_filter（左图）和（右图）bw_method=sigma/30.中设置来获得以下图的随机二维点分布gaussian_kde：

在此处输入图像描述

（MWE在问题的底部）

这些参数之间显然存在关系，因为一个对数据应用高斯滤波器，另一个应用高斯核密度估计器。

每个参数的定义是：

scipy.ndimage.filters.gaussian_filter，sigma：

sigma : 标量或标量序列高斯核的标准偏差。每个轴的高斯滤波器的标准偏差作为一个序列或单个数字给出，在这种情况下，它对所有轴都是相等的。

鉴于高斯算子的定义，我可以理解这一点：

在此处输入图像描述

scipy.stats.gaussian_kde，：bw_method_

bw_method：str，标量或可调用，可选用于计算估计器带宽的方法。这可以是“scott”、“silverman”、标量常量或可调用对象。如果是标量，这将直接用作 kde.factor。如果是可调用的，它应该将 gaussian_kde 实例作为唯一参数并返回一个标量。如果无（默认），则使用“斯科特”。有关详细信息，请参阅注释。

在这种情况下，我们假设 for 的输入bw_method是一个标量（浮点数），以便与sigma. 这是我迷路的地方，因为我在任何地方都找不到有关此kde.factor参数的信息。

如果可能的话，我想知道的是连接这两个参数（即：以及何时使用浮点数）的精确数学方程。sigmabw_method

MWE：

import numpy as np
from scipy.stats import gaussian_kde
from scipy.ndimage.filters import gaussian_filter
import matplotlib.pyplot as plt

def rand_data():
    return np.random.uniform(low=1., high=200., size=(1000,))

# Generate 2D data.
x_data, y_data = rand_data(), rand_data()
xmin, xmax = min(x_data), max(x_data)
ymin, ymax = min(y_data), max(y_data)

# Define grid density.
gd = 100
# Define bandwidth
bw = 2.

# Using gaussian_filter
# Obtain 2D histogram.
rang = [[xmin, xmax], [ymin, ymax]]
binsxy = [gd, gd]
hist1, xedges, yedges = np.histogram2d(x_data, y_data, range=rang, bins=binsxy)
# Gaussian filtered histogram.
h_g = gaussian_filter(hist1, bw)

# Using gaussian_kde
values = np.vstack([x_data, y_data])
# Data 2D kernel density estimate.
kernel = gaussian_kde(values, bw_method=bw / 30.)
# Define x,y grid.
gd_c = complex(0, gd)
x, y = np.mgrid[xmin:xmax:gd_c, ymin:ymax:gd_c]
positions = np.vstack([x.ravel(), y.ravel()])
# Evaluate KDE.
z = kernel(positions)
# Re-shape for plotting
z = z.reshape(gd, gd)

# Make plots.
fig, (ax1, ax2) = plt.subplots(1, 2)
# Gaussian filtered 2D histograms.
ax1.imshow(h_g.transpose(), origin='lower')
ax2.imshow(z.transpose(), origin='lower')

plt.show()

score 4 · Accepted Answer

没有关系，因为你在做两件不同的事情。

使用 scipy.ndimage.filters.gaussian_filter，您正在使用内核过滤 2D 变量（图像），并且该内核恰好是高斯。它本质上是平滑图像。

使用 scipy.stats.gaussian_kde 您尝试估计二维变量的概率密度函数。带宽（或平滑参数）是您的积分步骤，应尽可能小，数据允许。

这两个图像看起来相同，因为您从中抽取样本的均匀分布与正态分布没有太大区别。显然，使用正常的核函数可以得到更好的估计。

您可以阅读有关内核密度估计的信息。

编辑：在核密度估计（KDE）中，核被缩放，使得带宽是平滑核的标准偏差。使用哪个带宽并不明显，因为它取决于数据。存在单变量数据的最佳选择，称为 Silverman 的经验法则。

总而言之，高斯滤波器的标准偏差和 KDE 的带宽之间没有关系，因为我们说的是橙子和苹果。但是，仅谈 KDE时， KDE 带宽和同一个 KDE 内核的标准差之间是有关系的。他们是平等的！事实上，实现细节有所不同，并且可能存在取决于内核大小的缩放。你可以阅读你的特定包 gaussian_kde.py

python - gaussian_filter 和 gaussian_kde 中 sigma 和带宽的关系

1 回答 1

Related

Reference