问题标签 [binning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1814 浏览

python - Python - 如何为列表生成分箱索引?

我有 10 个垃圾箱:

我有一个包含 25 个值的列表:

我想将这些值按顺序放入 bin 中,以便将每个值分组到其 bin 中:

binnedValues = [[10,0],[0,14,14],[123,235],[0,0,0],[0,0],[12,12,1235],[23,234],[15,15,23],[136,34,34],[37,45]]

如您所见,bin 中的值的数量并不总是相同的,(如len(values) != len(bins)

另外,我有很多不同大小的值列表。所以我需要对相同数量的 bin 执行此操作多次,但值列表长度不同。上面是一个例子——真实的 bin 大小是 10k,真实的 len(values) 是从 ~10k 到 ~750k..

有没有办法始终如一地做到这一点?我需要保持值的顺序,但平均拆分值列表,以便分配到每个箱的值范围的“公平”和“偶数”数量。

我想我可以使用 numpy.digitize,但是看过之后,我看不到如何生成“binned”列表

0 投票
2 回答
5123 浏览

python - Python中数组的2D和3D散点直方图

你知道吗,我如何将 3 个数组合并为直方图。我的数组看起来像

一维图应该看起来:

并且 2D 图应该(定性的)看起来像:

所以我想用 python/numpy 合并一两个字段,然后绘制它们以分析它们的对应关系。

0 投票
2 回答
9322 浏览

plot - 将函数拟合到在 gnuplot 中使用频率创建的直方图

介绍

在 gnuplot 中,有一个解决方案可以从名为hist.datwhat likes的文件创建直方图

通过使用命令

从其他 SO 页面生成这样的直方图。

问题

我怎样才能使我的函数适合这个直方图?我定义了一个高斯函数并初始化了它的值

在输出中,函数很好地遵循直方图。

不幸的是,我无法使用命令适应此直方图

那么如何在不创建包含分箱值的新文件的情况下适应我的函数呢?

0 投票
2 回答
2023 浏览

matlab - 在 Matlab 中对巨大的点云进行分箱和平均

我有一个巨大的 3D 点云,[3x40e6]。它是一个平面的点云,所以在这个意义上它更像是 2.5D。我想将点云合并到一个固定的网格范围中,这样我就可以将它放入一个 2D 矩阵并使用 imagesc(mymap)查看它。

我确实解决了这个问题,但是时间太长了。这是我到目前为止得到的。它工作正常,但需要 10 分钟。它插入了所有类型的 jive,我不需要。

我真正想做的是将我的 [3xN] 向量中的所有数据合并到我的特定 2D 范围图中。我想我必须将所有值合并到该地图中(有一些出色且快速的合并算法),但我还需要其中的特定 Z 坐标标量,因为这是我想要在每个 bin 中平均的值。

谢谢!

0 投票
1 回答
23822 浏览

python - pandas 中更好的分箱

我有一个数据框,想按一系列值过滤或分箱,然后获取每个箱中值的计数。

目前,我正在这样做:

但是有没有更简洁的方法来完成同样的事情?

0 投票
3 回答
7273 浏览

numpy - Numpy 重新组合二维数组

我正在寻找一种快速公式来对 2D numpy 数组进行数值分箱。通过分箱,我的意思是计算子矩阵平均值或累积值。例如。x = numpy.arange(16).reshape(4, 4) 将被分成 4 个 2x2 的子矩阵,并给出 numpy.array([[2.5,4.5],[10.5,12.5]]) 其中 2.5=numpy。平均([0,1,4,5])等...

如何以有效的方式执行这样的操作......我真的不知道如何执行这个......

非常感谢...

0 投票
3 回答
14401 浏览

python - Python:检查值属于哪个bin

我有一个值列表和一个 bin 边缘列表。现在我需要检查它们所属的 bin 的所有值。有没有比遍历值然后遍历 bin 并检查值是否属于当前 bin 更 Pythonic 的方法,例如:

这对我来说看起来不太漂亮。谢谢!

0 投票
2 回答
796 浏览

r - 按 (x,y) 对数据进行分类并汇总

这些是我拥有的一个大文件的前 10 行:(请注意,这 10 行中只有一个用户,但我有数千个用户)

关于数据是什么的一些解释,以简化理解。x 和 y 是 lat 和 long 坐标的变换。我已使用cut. 我想获得每个用户访问次数最多的 bin,所以我使用ddply. 如下:

获得:

现在我想做的是从第一个数据集中计算每个用户访问量最大的 bin 的平均 x,y 值,这些值是从先前的计算中获得的。我不知道如何有效地做到这一点,鉴于我的数据集非常大,我希望能得到一些指导。谢谢!

0 投票
3 回答
767 浏览

r - 具有二次复杂计算的数据帧的 R 2D 分箱

我有一个通常看起来像这样的数据框

x 和 y 是位置。vx 和 vy 是二维向量的 x、y 值。我想根据 x 和 y 值获取这个数据框和“bin”,但对 vx 和 vy 执行计算。此函数执行此操作,但它使用的循环对于我的数据集来说太慢了。

这种类型的 2D 分箱是否可以以非循环方式进行?

0 投票
1 回答
68 浏览

python - 对数据集使用范围

我在一个看似简单的问题上遇到了麻烦。我有一个 X,Y,Z 格式的原子坐标列表。我已经使用 numpy.linspace() 从 Z 坐标中创建了一个“bins”列表。Z坐标使得排序后的点之间的差异可能只有小数或整数。我想移动“bins”,只添加位于“bin0”-“bin1”范围内的坐标集的 X、Y、Z,然后是“bin1-bin2”。基本上这就是我想在一些非常糟糕的伪代码中做的事情。我已经有了要用作“bin”范围的均匀间隔的数字

我知道可能有一个简单的 python 解决方案,但是我对使用范围的列表推导的理解是有限的。非常感谢任何提示。

EDIT* 尝试添加“SSCCE”