问题标签 [kernel-density]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
687 浏览

r - 在 R 中绘制高维核密度

我有一个关于 R 中的核密度估计的问题。我有一个 5 维数据,它由 (x,y,z) 位置、发生时间和某些事件的大小(例如地震)组成(我附上了数据集)。我在 R 中编写了以下代码以找到 5D 内核密度估计:

现在,我想可视化内核密度估计。我更喜欢在一个图中显示所有 5 个维度的内核(通过对点使用不同的颜色或大小)或至少分别显示三个维度。你对我有什么建议吗?

这是数据:

0 投票
2 回答
4102 浏览

python - 在 Python 中用于条件密度估计的工具

我有一个大型数据集,每行包含 3 个属性:A、B、C

A 列:可以取值 1、2 和 0。 B 列和 C 列:可以取任何值。

我想使用 P(A = 2 | B,C) 的直方图执行密度估计,并使用 python 绘制结果。

我不需要代码来做到这一点,我可以自己尝试解决。我只需要知道我应该使用的程序和工具吗?

0 投票
1 回答
999 浏览

kernel - sklearn 可以通过核密度估计处理多少数据

我有一个包含 4000 万行(约 8Mb)的数据集,而每行都是浮点类型。我想使用 sklearn 内核密度估计来拟合这个数据集和高斯内核。但它在我的电脑上太慢了(4GB RAM,256GB SSD)。那么,sklearn kde 可以处理百万甚至更多样本的数据集吗?

0 投票
1 回答
404 浏览

r - 在密度2d中计算密度估计?

关于密度 2d 背后的原理,我有一个更普遍的问题。我正在使用 ggplot 和 density2d 函数来可视化动物的运动。我的想法是计算热图,显示动物大部分时间的位置和/或识别特别感兴趣的区域。然而, density2d 函数有时会产生相当莫名其妙的图。

这就是我的意思:

看起来像这样: 在此处输入图像描述

有些区域有密度估计但没有数据(大约 x:50,y:300)。

现在比较一下:

看起来像这样: 在此处输入图像描述

这里有一些区域“没有”密度估计,但有实际数据(大约 x:100,y:550)。

有人问了一个相关的问题:
Create heatmap with distribution of attribute values in R(不是密度热图)
但是没有找到令人满意的答案。

所以我的问题是(i)为什么?(ii) 如果可能,如何避免/调整?

0 投票
2 回答
7945 浏览

python - pandas.DataFrame.resample 的高斯核密度平滑?

pandas.DataFrame.resample习惯将随机事件重新采样为 1 小时间隔,并且看到非常随机的结果,如果我将间隔增加到 2 或 4 小时,这些结果似乎不会消失。这让我想知道 Pandas 是否有任何类型的方法来生成平滑密度内核,例如具有可调节带宽的高斯内核密度方法来控制平滑。我在文档中没有看到任何内容,但我想在发布到开发人员列表服务器之前先在这里发布,因为这是他们的偏好。Scikit-Learn正是我想要的高斯核密度函数,所以我会尝试使用它,但这将是 Pandas 的一个很棒的补充。

任何帮助是极大的赞赏!

在此处输入图像描述

0 投票
0 回答
569 浏览

python - 大量坐标的有效点密度

大家好,很抱歉发了这么长的帖子

我在大小为 (13720,3) 的二维数组中有一个 3 维坐标 (x,y,z) 数组。我想制作坐标的点密度图,这样我就可以看到哪些区域有很多观察结果,以及我们什么都看不到的地方。请注意,没有与坐标相关的值 - 但如果使用与坐标相关的值更容易,我可以制作一个跨越整个体积的网格并将 1 分配给观察值,将 0 分配给没有观察值的地方。

这里已经有关于这个的很好的线程:How to plot a 3D density map in python with matplotlib

但是当我运行下面的代码时,我遇到了无穷大和/或 nan 的问题

引发警告

密度是

我查看了 histogramdd 的文档(http://docs.scipy.org/doc/numpy/reference/generated/numpy.histogramdd.html),看看我是否可以对数据点进行分类,这样可以加快计算速度并避免反转矩阵的问题。但我不能让它像我想要的那样工作。这是我的代码

据我所见,它单独对我的数据集中的每一列进行分类,所以我认为我不能用它来加速 stat.gaussian_kde。我可以从我链接的线程中看到,多处理可以加快评估速度 - 这很好,但我不太确定如何实现它 - 我完全不理解他的最后一个脚本(如果你想知道为什么他的优化不在我的代码中)

除了对数据进行分箱的微弱尝试外,我不知道如何进行。任何投入将不胜感激 :)

0 投票
1 回答
619 浏览

matlab - MATLAB ksdensity 函数是否执行边界校正?

熟悉核密度估计的人应该知道,存在一些边界校正方法。ksdensity 函数具有 [LU] 有界支持的能力。然后,我的问题是,“这里使用什么边界校正方法?” 反射还是重整化?

0 投票
1 回答
164 浏览

python - KDE 中自定义点的 PDF

我在基础 R 中使用“密度”函数为给定的数据向量 (1-D) 生成 KDE。参数“n”到“密度”函数给出了 n 个均匀间隔点的概率密度估计。有没有办法在自定义点列表中获得这个估计?

我在想我希望在每 0.01 个百分位点进行密度估计,以便点在密度高的地方更近,在密度不高的地方更远,基本上将我的 PDF 估计与当时 PDF 函数的可能置信度对齐。这个 x,y 集合将被存储并在模型开发后用于评分。

熟悉 Python 的人会认识到,这个功能在 scipy.stats.gaussian_kde.evaluate(..)

0 投票
2 回答
3426 浏览

python - Scikit-Learn KDE 中的 PDF 估计

我正在尝试从使用 scikit-learn 模块计算的 KDE 计算 PDF 估计值。我已经看到了 2 种评分变体,我都在尝试:下面的语句 A 和 B。

语句 A 导致以下错误:

AttributeError:“KernelDensity”对象没有属性“tree_”

语句 B 导致以下错误:

ValueError:查询数据维度必须匹配训练数据维度

似乎是一个愚蠢的错误,但我无法弄清楚。请帮忙。代码如下...

如果有帮助,我正在使用 0.15.2 版本的 scikit-learn。我已经用 scipy.stats.gaussian_kde 成功地尝试过了,所以数据没有问题。

0 投票
3 回答
11074 浏览

python - `python`中的加权高斯核密度估计

更新:现在支持加权样本scipy.stats.gaussian_kde。有关详细信息,请参见此处此处

目前无法scipy.stats.gaussian_kde根据加权样本来估计随机变量的密度。有哪些方法可用于基于加权样本估计连续随机变量的密度?