问题标签 [binning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python - 如何为列表生成分箱索引?
我有 10 个垃圾箱:
我有一个包含 25 个值的列表:
我想将这些值按顺序放入 bin 中,以便将每个值分组到其 bin 中:
binnedValues = [[10,0],[0,14,14],[123,235],[0,0,0],[0,0],[12,12,1235],[23,234],[15,15,23],[136,34,34],[37,45]]
如您所见,bin 中的值的数量并不总是相同的,(如len(values) != len(bins)
)
另外,我有很多不同大小的值列表。所以我需要对相同数量的 bin 执行此操作多次,但值列表长度不同。上面是一个例子——真实的 bin 大小是 10k,真实的 len(values) 是从 ~10k 到 ~750k..
有没有办法始终如一地做到这一点?我需要保持值的顺序,但平均拆分值列表,以便分配到每个箱的值范围的“公平”和“偶数”数量。
我想我可以使用 numpy.digitize,但是看过之后,我看不到如何生成“binned”列表
python - Python中数组的2D和3D散点直方图
你知道吗,我如何将 3 个数组合并为直方图。我的数组看起来像
一维图应该看起来:
并且 2D 图应该(定性的)看起来像:
所以我想用 python/numpy 合并一两个字段,然后绘制它们以分析它们的对应关系。
plot - 将函数拟合到在 gnuplot 中使用频率创建的直方图
介绍
在 gnuplot 中,有一个解决方案可以从名为hist.dat
what likes的文件创建直方图
通过使用命令
从其他 SO 页面生成这样的直方图。
问题
我怎样才能使我的函数适合这个直方图?我定义了一个高斯函数并初始化了它的值
在输出中,函数很好地遵循直方图。
不幸的是,我无法使用命令适应此直方图
那么如何在不创建包含分箱值的新文件的情况下适应我的函数呢?
matlab - 在 Matlab 中对巨大的点云进行分箱和平均
我有一个巨大的 3D 点云,[3x40e6]。它是一个平面的点云,所以在这个意义上它更像是 2.5D。我想将点云合并到一个固定的网格范围中,这样我就可以将它放入一个 2D 矩阵并使用 imagesc(mymap)查看它。
我确实解决了这个问题,但是时间太长了。这是我到目前为止得到的。它工作正常,但需要 10 分钟。它插入了所有类型的 jive,我不需要。
我真正想做的是将我的 [3xN] 向量中的所有数据合并到我的特定 2D 范围图中。我想我必须将所有值合并到该地图中(有一些出色且快速的合并算法),但我还需要其中的特定 Z 坐标标量,因为这是我想要在每个 bin 中平均的值。
谢谢!
python - pandas 中更好的分箱
我有一个数据框,想按一系列值过滤或分箱,然后获取每个箱中值的计数。
目前,我正在这样做:
但是有没有更简洁的方法来完成同样的事情?
numpy - Numpy 重新组合二维数组
我正在寻找一种快速公式来对 2D numpy 数组进行数值分箱。通过分箱,我的意思是计算子矩阵平均值或累积值。例如。x = numpy.arange(16).reshape(4, 4) 将被分成 4 个 2x2 的子矩阵,并给出 numpy.array([[2.5,4.5],[10.5,12.5]]) 其中 2.5=numpy。平均([0,1,4,5])等...
如何以有效的方式执行这样的操作......我真的不知道如何执行这个......
非常感谢...
python - Python:检查值属于哪个bin
我有一个值列表和一个 bin 边缘列表。现在我需要检查它们所属的 bin 的所有值。有没有比遍历值然后遍历 bin 并检查值是否属于当前 bin 更 Pythonic 的方法,例如:
这对我来说看起来不太漂亮。谢谢!
r - 按 (x,y) 对数据进行分类并汇总
这些是我拥有的一个大文件的前 10 行:(请注意,这 10 行中只有一个用户,但我有数千个用户)
关于数据是什么的一些解释,以简化理解。x 和 y 是 lat 和 long 坐标的变换。我已使用cut
. 我想获得每个用户访问次数最多的 bin,所以我使用ddply
. 如下:
获得:
现在我想做的是从第一个数据集中计算每个用户访问量最大的 bin 的平均 x,y 值,这些值是从先前的计算中获得的。我不知道如何有效地做到这一点,鉴于我的数据集非常大,我希望能得到一些指导。谢谢!
r - 具有二次复杂计算的数据帧的 R 2D 分箱
我有一个通常看起来像这样的数据框
x 和 y 是位置。vx 和 vy 是二维向量的 x、y 值。我想根据 x 和 y 值获取这个数据框和“bin”,但对 vx 和 vy 执行计算。此函数执行此操作,但它使用的循环对于我的数据集来说太慢了。
这种类型的 2D 分箱是否可以以非循环方式进行?
python - 对数据集使用范围
我在一个看似简单的问题上遇到了麻烦。我有一个 X,Y,Z 格式的原子坐标列表。我已经使用 numpy.linspace() 从 Z 坐标中创建了一个“bins”列表。Z坐标使得排序后的点之间的差异可能只有小数或整数。我想移动“bins”,只添加位于“bin0”-“bin1”范围内的坐标集的 X、Y、Z,然后是“bin1-bin2”。基本上这就是我想在一些非常糟糕的伪代码中做的事情。我已经有了要用作“bin”范围的均匀间隔的数字
我知道可能有一个简单的 python 解决方案,但是我对使用范围的列表推导的理解是有限的。非常感谢任何提示。
EDIT* 尝试添加“SSCCE”