问题标签 [binning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
148 浏览

r - 在R中用0值分隔数据行

我有一个大的时间序列(以数据框形式)(n => 6000),如下所示:

每行都有一个时间(YYYY-MM-DD HH:MM:SS,12 小时时间序列)和降水量。我想按风暴事件分离数据。

我想做的是:1)添加一个名为“风暴”的新列2)为每组以0分隔的金额值,称之为一个风暴。

例如...

4)在那之后,我的计划是通过风暴事件对数据进行子集化。

我对 R 很陌生,所以不要害怕指出显而易见的事情。您的帮助将不胜感激!

0 投票
1 回答
3714 浏览

python - Python:列表、分箱和排序

我有一件非常具体的事情要做,但不知道如何完成:我有两个列表,x 和 y,对应的值(每个列表中大约 10k)。

首先,我需要根据它们在 x 中的顺序将两个列表分箱,每个箱中有 N 个值。所以我不能预先定义固定的 bin 边缘,我宁愿需要,例如,每个 bin 中有 10 个值。

然后我需要计算每个 x bin 对应的 10 个 y 值的中值。

在最后一步中,我有第三个列表 z,其中包含更多值,例如 x(大约 100k 个值),然后检查每个值,它会落在哪个 x bin 中,并将相应 y bin 的平均值添加到它(类似于:z + mean[y_m:y_n][其中 x_m < z < x_n]))。知道怎么做吗?谢谢!

0 投票
3 回答
2134 浏览

python - 按索引将列表映射到列表列表(Python)

我正在寻找一种有效的方法来映射值列表,比如

到另一个列表,包含相同总范围的值列表,例如

我需要知道的基本上是来自 x 的值对应于 z 的索引。x[0]=1将对应于z[0],因为它落在 z 的第一个 bin 中,其中x[7]=8将对应于z[2],因为它落在第三个 bin 中。

如何识别每个 x 值的 z 子列表的索引?在我的例子中,x 有大约 50,000 个值,z 有大约 5,000 个子列表,而且我有很多这样的列表,所以我正在寻找一种方法来尽可能快地做到这一点。

0 投票
1 回答
733 浏览

matlab - 数据的高斯分箱

我只是有一个简单的问题,即如何对数据点进行高斯分箱。假设在 X = 100 时,我检测到 5000 个电子,但我的 FWHM 为 4 点。在 matlab 中是否可以将 5000 个电子与以 X = 100 为中心的高斯分箱。就像 X = 99 和 X = 101 之间的 2500 个电子和 95 和 105 之间的 5000 个电子一样?

0 投票
1 回答
5378 浏览

r - 将数据放入不等大小的 bin 中

我是R新手,想利用它直接处理我的数据。我的最终目标是制作直方图/条形图。

深度:0、1、2、3、4、5、6、7、8、9、10

百分比:.4、.1、.5、.2、.1、.3、.9、.3、.2、.2、.8

我想获取深度向量并将其分成不相等的块(0、1-5、6-8、9-10),并获取百分比值并以某种方式将它们加在一起以获得匹配的块。

例如:

0 -> .4

1-5 -> 1.2

6-8 -> 1.4

9-10 -> 1.0

实际数据集达到数千个,我觉得R可能更适合于此,然后使用 C++ 将我的数据分组到一个较小的表中,然后再让 R 绘制它。

我查看了如何使用 SPLIT 和 CUT,但我不太确定在将数据切割成范围后如何利用这些数据。如果我为 CUT 做“中断”,我不知道如何包含零初始值(对应于示例中的 .4)。

任何建议或方法将不胜感激。

0 投票
1 回答
3007 浏览

java - 猪:按范围/分箱数据分组

我有一组整数值,我想将它们分组到一堆垃圾箱中。

示例:假设我在 1 到 1000 之间有一千个点,我想做 20 个分箱。

反正有没有将它们分组到一个 bin/array 中?

另外,我不会提前知道范围有多宽,所以我不能硬编码任何特定的值。

0 投票
1 回答
2141 浏览

python - 在 Python 中绘制高于阈值的值的出现

我有一个非均匀数组'A'。

我想探索数组“A”中有多少元素的值高于某个阈值。

例如,有 1000 个元素的值大于 1200,所以我想绘制值大于 1200 的元素的数量。此外,还有其他 1500 个元素的值大于 110(这包括 1000 个元素,其值大于 1200)。

这是一个相当大的数据集,所以我不想省略任何类型的信息。

然后,我想绘制值 A 与 Log (A) 之上的元素“N”的数量,即

我想对数据进行分箱,但我相当不成功。我没有在 python 中做过那么多的统计,所以我想知道是否有一种很好的方法来绘制这些数据?

提前致谢。

0 投票
1 回答
2678 浏览

python - pandas - 添加一个基于现有值的列(bins,qcut)

我正在慢慢地从R转向python + pandas,我面临着一个我无法解决的问题......

我需要将一列中的值离散化,方法是将它们分配给 bin 并将具有这些 bin 名称的列添加到 original DataFrame。我正在尝试使用pandas.qcut,但生成的Categorical对象似乎与DataFrame.

一个例子:

现在,当尝试调用describe时,df1我看不到新列:

但是,它显然在那里:

我究竟做错了什么?我想要的结果是得到一个包含 4 个唯一字符串值的列来描述这些 bin(如 R 中的因子)。


编辑:

正如 Dan 正确发现的那样,该summary()方法不会显示包含纯文本数据的列,因此解决了神秘的问题 :) 非常感谢!

0 投票
2 回答
792 浏览

r - Hexbin:为每个 bin 应用函数

我想构建 hexbin 图,其中每个 bin 都绘制了“落入此 bin 的 1 类和 2 类点之间的比率”(无论是否为对数)。

关于如何实现这一点的任何建议?有没有办法根据 bin 统计信息向每个 bin 引入函数?

0 投票
1 回答
610 浏览

r - 在 R Logistic 回归中手动加权分箱变量

我希望在 R 中使用逻辑回归进行信用评分,但我对此感到困惑......

如果我有一个包含“Own”、“Rent”和“Other”因素的分类变量“Residence”,并且我想将“Other”的权重设置为零,以便它在模型中是中性的,那么最好的方法是在 R 中的 glm 中执行此操作?

我们可以使用 Fico Model Builder 手动执行此操作,但我不确定如何在 R 中执行此操作。

谢谢。