问题标签 [binning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1176 浏览

r - 使用分箱平均值创建直方图

我正在使用移动平均线和分箱制作两个直方图。通过使用 excel,我得到了 18k 数据点的移动平均值,其中大多数是 0 值。

这就是我希望通过 R 完成的事情

“移动平均线”

我想使用 R 来制作一个脚本,该脚本将生成一个设备收到多少“计数”的直方图。我努力了 :

现在,经过三天的学习,这就是我得到的:

这个想法是我想要 20 个值的平均总和并随着时间的推移绘制它,即 x

0 投票
1 回答
2451 浏览

r - R中的分箱年龄

我正在尝试编写一个将年龄划分为不同组的函数。

假设我的数据如下:

出生年

我的函数被编写为将出生年份转换为年龄,然后根据名为 agebreaks 的数据框将它们分类为 10 个不同类别中的 1 个:

功能:

我想要的是所有 14 到 19 岁的人分组,20 到 24 岁的人分组,等等。我得到的不是所需的 10 组,而是 20 18 组。我也尝试过使用 cut() 无济于事。有什么建议么?

0 投票
1 回答
152 浏览

c++ - 使用 C++ 根据标准对信息进行分箱

我的信息看起来像这样

如您所见,信息按时间和 ID 排序。我希望能够做的是在进行下一步之前计算花费在9008 905&上的时间9008 1111

我正在像这样阅读它

我不确定这是否是解决此问题的最佳方法。

谢谢。

0 投票
0 回答
108 浏览

matlab - 如何在 MATLAB 中计算区域合并

我有一个大小为 (Mx3) 的矩阵。第 1 列和第 2 列分别是纬度和经度。第三列是温度值。我想对数据进行区域分箱,以便在每 100 平方米的箱中显示 1 个点而不是几个点。

任何人都知道如何在地理上进行区域分箱?!

0 投票
2 回答
139 浏览

matlab - 花式分箱操作 - 如何矢量化相对的分箱内操作?

我决定今晚有点疯狂,并与直方图箱一起对我正在分析的一些财务数据进行操作。

不过,派对似乎已经被大便了,因为我想应用我的“intra-bin”操作的方式并不明显,既不是通过研究也不是通过玩耍,而且证明很麻烦。

愿望:我想在列中使用“binning”索引来执行某种逐行的“intra-bin”操作,其中所述操作将对它自己的 bin 的第一个元素进行相对引用。请考虑下面的单箱示例,其中操作是取差值

一个=

相对运算将采用第 2 列的所有元素和第 2 列的第一个元素之间的差异,使得

bin_differencing_function(A)=

现在,更方便的是能够为 bin_difference_function(A) 提供一个具有任意数量 bin 的双列矩阵,这样如果

一个=

better_bin_differencing_function(A)=

最方便的方法是能够为 better_bin_difference_function(A) 提供具有任意数量 bin 的双列矩阵,其中 bin 长度可能不是恒定的,如果

一个=

best_bin_differencing_function(A)=

最大的愿望是创建一段代码,利用矢量化(如果可能的话)对长度在 1 到 200 之间变化的许多 bin 进行操作。我认为在 accumarray 上玩可能会起到这样的作用

其中 fun(x) 是一个带有 for 循环的函数。

我在 Windows 7 上运行 MATLAB 7.10.0.499 (R2010a)。抱歉,这些示例查询了这么久。

0 投票
1 回答
441 浏览

excel - Excel平均每0.5米,数据点之间的距离不规则

我有一个经常有高度值的数据集,比如带有 GPS 坐标的直线上的地形数据。我使用 GPS 坐标和三角函数来制作累积距离列。但是,点之间的距离会有所不同。有时是 10 厘米,有时是 13 厘米,有时是 40 厘米。

我想取每 0.5 米的平均高度,但有时距离列甚至不会落在 0.5 的倍数上!这意味着我的输出列将比我的原始数据列短得多。

我认为我的主要问题是我不知道这个过程叫什么来谷歌它。另一个问题是如上所述的距离是不规则的。我认为可能与它有关的事情:

平均?

装箱?我不想要直方图,只想要数据。

感谢您的帮助,如果您不知道答案,但至少知道我应该在搜索栏中写什么也会有所帮助。谢谢!

0 投票
2 回答
1359 浏览

python - 使用 Python Pandas 根据在第二个 df 中定义的 bin 将数据放入一个 df

我正在尝试根据在第二个数据帧中定义的箱将数据分箱到一个数据帧中。我在想 pd.bin 和 pd.merge 的某种组合可能会让我到达那里?

这基本上是每个数据框当前的形式:

东风:

这是带有垃圾箱的表格,df2:

我想匹配 bin,并使用包含 df 中 perc 值的 cut_min 和 cut_max 在 df2 中找到适当的结果。所以,我希望结果表如下所示:

我最初是在一个 SQL 查询中写的,它通过一个连接非常简单地完成了任务:

如果有人知道使用 Pandas 执行此操作的好方法,将不胜感激!(这实际上是我第一次在stackoverflow上搜索不到解决方案,所以如果上述任何一个解释得不够好,我深表歉意!)

0 投票
1 回答
2319 浏览

python - Pandas 中的分箱

给定 Pandas 中的以下数据框:

我需要创建一个单独的分类变量(列),它根据年龄保存每行的 bin 标签。例如,反对行 -

我想要另一列显示“35 到 45 之间”。

最终记录应显示为 -

0 投票
2 回答
700 浏览

matlab - MATLAB:从非均匀网格到均匀网格的平均数据

我每隔 10 分钟采集一次数据,但有很多数据空白,我想将其平均到一个统一的每小时时间网格上。我正在寻找一种有效的方法来获取每小时两侧的 3 个潜在点并将它们平均到每小时。

例子:

t_old = [1:35 1:45 1:55 -- 2:15 2:25] %here -- 缺少数据

t_new = 2:00

数据旧 = [1 2 3 -- 5 6]

数据新 = 3.4

问题是有足够的数据差距,我不能直接平均。我知道我可以通过转到每个新的时间步并使用具有半小时偏移量的 find() 来做到这一点,但我觉得这将是非常低效和缓慢的。关于更快地做到这一点的任何想法?也许有某种方法可以将最近的时间分档,然后平均分档?

为 MWE 编辑:

0 投票
2 回答
403 浏览

r - 使用 R 合并两个不同范围的向量

我正在尝试使用 R 评估简单预测模型的性能,方法是通过将预测结果分箱到定义的间隔中来离散化预测结果,然后将它们与相应的实际值(分箱)进行比较。

我有两个实际预测的向量,如图所示:

我需要在这里执行分箱。首先,“实际”的值被分解/离散到不同的级别,例如:0-5:级别 1 ** 6-10:级别 2 ** ... ** 41-45:级别 9

现在,我必须将“预测”的值也放入上述存储桶中。我尝试使用 R 中的cut()函数来实现这一点:

但是,如果您看到预测 (98.01) 中的第二个元素被标记为 5,但它实际上并未落在所需的区间内。我觉得使用不同的binCount进行预测将无济于事。有人可以为此提出解决方案吗?