“binning”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

148 浏览

r - 在R中用0值分隔数据行

我有一个大的时间序列（以数据框形式）（n => 6000），如下所示：

每行都有一个时间（YYYY-MM-DD HH:MM:SS，12 小时时间序列）和降水量。我想按风暴事件分离数据。

我想做的是：1）添加一个名为“风暴”的新列2）为每组以0分隔的金额值，称之为一个风暴。

例如...

4）在那之后，我的计划是通过风暴事件对数据进行子集化。

我对 R 很陌生，所以不要害怕指出显而易见的事情。您的帮助将不胜感激！

r time-series binning

2013-04-30T22:41:23.220

0 投票

1 回答

3714 浏览

python - Python：列表、分箱和排序

我有一件非常具体的事情要做，但不知道如何完成：我有两个列表，x 和 y，对应的值（每个列表中大约 10k）。

首先，我需要根据它们在 x 中的顺序将两个列表分箱，每个箱中有 N 个值。所以我不能预先定义固定的 bin 边缘，我宁愿需要，例如，每个 bin 中有 10 个值。

然后我需要计算每个 x bin 对应的 10 个 y 值的中值。

在最后一步中，我有第三个列表 z，其中包含更多值，例如 x（大约 100k 个值），然后检查每个值，它会落在哪个 x bin 中，并将相应 y bin 的平均值添加到它（类似于：z + mean[y_m:y_n][其中 x_m < z < x_n]））。知道怎么做吗？谢谢！

python list mapping binning

2013-05-20T09:34:30.930

0 投票

3 回答

2134 浏览

python - 按索引将列表映射到列表列表（Python）

我正在寻找一种有效的方法来映射值列表，比如

到另一个列表，包含相同总范围的值列表，例如

我需要知道的基本上是来自 x 的值对应于 z 的索引。x[0]=1将对应于z[0]，因为它落在 z 的第一个 bin 中，其中x[7]=8将对应于z[2]，因为它落在第三个 bin 中。

如何识别每个 x 值的 z 子列表的索引？在我的例子中，x 有大约 50,000 个值，z 有大约 5,000 个子列表，而且我有很多这样的列表，所以我正在寻找一种方法来尽可能快地做到这一点。

python list mapping binning

2013-05-21T07:56:48.530

0 投票

1 回答

733 浏览

matlab - 数据的高斯分箱

我只是有一个简单的问题，即如何对数据点进行高斯分箱。假设在 X = 100 时，我检测到 5000 个电子，但我的 FWHM 为 4 点。在 matlab 中是否可以将 5000 个电子与以 X = 100 为中心的高斯分箱。就像 X = 99 和 X = 101 之间的 2500 个电子和 95 和 105 之间的 5000 个电子一样？

matlab scaling gaussian binning

2013-06-18T20:18:55.747

0 投票

1 回答

5378 浏览

r - 将数据放入不等大小的 bin 中

我是R新手，想利用它直接处理我的数据。我的最终目标是制作直方图/条形图。

深度：0、1、2、3、4、5、6、7、8、9、10

百分比：.4、.1、.5、.2、.1、.3、.9、.3、.2、.2、.8

我想获取深度向量并将其分成不相等的块（0、1-5、6-8、9-10），并获取百分比值并以某种方式将它们加在一起以获得匹配的块。

例如：

0 -> .4

1-5 -> 1.2

6-8 -> 1.4

9-10 -> 1.0

实际数据集达到数千个，我觉得R可能更适合于此，然后使用 C++ 将我的数据分组到一个较小的表中，然后再让 R 绘制它。

我查看了如何使用 SPLIT 和 CUT，但我不太确定在将数据切割成范围后如何利用这些数据。如果我为 CUT 做“中断”，我不知道如何包含零初始值（对应于示例中的 .4）。

任何建议或方法将不胜感激。

r dataset binning

2013-06-21T18:50:21.470

0 投票

1 回答

3007 浏览

java - 猪：按范围/分箱数据分组

我有一组整数值，我想将它们分组到一堆垃圾箱中。

示例：假设我在 1 到 1000 之间有一千个点，我想做 20 个分箱。

反正有没有将它们分组到一个 bin/array 中？

另外，我不会提前知道范围有多宽，所以我不能硬编码任何特定的值。

java hadoop histogram apache-pig binning

2013-06-23T06:10:44.753

0 投票

1 回答

2141 浏览

python - 在 Python 中绘制高于阈值的值的出现

我有一个非均匀数组'A'。

我想探索数组“A”中有多少元素的值高于某个阈值。

例如，有 1000 个元素的值大于 1200，所以我想绘制值大于 1200 的元素的数量。此外，还有其他 1500 个元素的值大于 110（这包括 1000 个元素，其值大于 1200）。

这是一个相当大的数据集，所以我不想省略任何类型的信息。

然后，我想绘制值 A 与 Log (A) 之上的元素“N”的数量，即

我想对数据进行分箱，但我相当不成功。我没有在 python 中做过那么多的统计，所以我想知道是否有一种很好的方法来绘制这些数据？

提前致谢。

python plot statistics binning

2013-06-28T19:35:35.103

0 投票

1 回答

2678 浏览

python - pandas - 添加一个基于现有值的列（bins，qcut）

我正在慢慢地从R转向python + pandas，我面临着一个我无法解决的问题......

我需要将一列中的值离散化，方法是将它们分配给 bin 并将具有这些 bin 名称的列添加到 original DataFrame。我正在尝试使用pandas.qcut，但生成的Categorical对象似乎与DataFrame.

一个例子：

现在，当尝试调用describe时，df1我看不到新列：

但是，它显然在那里：

我究竟做错了什么？我想要的结果是得到一个包含 4 个唯一字符串值的列来描述这些 bin（如 R 中的因子）。

编辑：

正如 Dan 正确发现的那样，该summary()方法不会显示包含纯文本数据的列，因此解决了神秘的问题 :) 非常感谢！

python pandas binning

2013-07-03T13:52:56.773

0 投票

2 回答

792 浏览

r - Hexbin：为每个 bin 应用函数

我想构建 hexbin 图，其中每个 bin 都绘制了“落入此 bin 的 1 类和 2 类点之间的比率”（无论是否为对数）。

关于如何实现这一点的任何建议？有没有办法根据 bin 统计信息向每个 bin 引入函数？

r data-visualization binning

2013-07-16T22:24:05.253

0 投票

1 回答

610 浏览

r - 在 R Logistic 回归中手动加权分箱变量

我希望在 R 中使用逻辑回归进行信用评分，但我对此感到困惑......

如果我有一个包含“Own”、“Rent”和“Other”因素的分类变量“Residence”，并且我想将“Other”的权重设置为零，以便它在模型中是中性的，那么最好的方法是在 R 中的 glm 中执行此操作？

我们可以使用 Fico Model Builder 手动执行此操作，但我不确定如何在 R 中执行此操作。

谢谢。

r binning

Dirk Calloway

2013-08-12T18:38:15.000

问题标签 [binning]

Reference