“binning”的相关标签问题_Stack Overflow中文网

0 投票

2 回答

4769 浏览

python - 在python中对列表进行分箱

首先，我想说我是 python 新手，这段代码是在 stackoverflow 用户的建议和建议之外创建的。代码如下所示：

原始图是 P 和 Mag 的散点图。但是，每个时期都有多个 Mag 点。我希望尝试创建一个新的散点图，我可以在其中获取所有这些 Y 值并对每个单独的 X 值取平均值，从而创建一个有两个下降的更紧密的图表。

我曾尝试查看各种数据分箱方法，但无论我使用哪种方法，包含分箱数据的图表似乎都无法正确显示。X 值应该从 0 到 1 运行，就像在预分箱数据图上一样。

这是我正在使用的数据，以防您需要查看它。

http://pastebin.com/60E84azv

任何人都可以就如何创建分箱数据图提供任何建议或建议吗？我对数据分箱的了解非常少。

感谢您的时间！

2013-11-16T10:21:04.343

0 投票

3 回答

15239 浏览

python - 每 X 行将 pandas 数据框装箱

我有一个简单的数据框，我想为每 3 行装箱。

它看起来像这样：

我想把它变成这样：

我已经在这里发布了一个类似的问题，但我不知道如何将解决方案移植到我当前的用例中。

你能帮我吗？

非常感谢！

python pandas dataframe binning

2013-11-24T20:06:56.240

0 投票

2 回答

4124 浏览

r - R中的分箱时间序列？

我是 R 新手。我的数据有 600k 个对象，由三个属性定义Id：Date和TimeOfCall.

TimeofCall具有00:00:00格式和范围从00:00:00到23:59:59。

我想将TimeOfCall属性分箱，分成 24 个箱，每个箱代表每小时时段（第一个箱00:00:00到00:59:59等等）。

有人可以告诉我如何做到这一点吗？我尝试使用cut()但显然我的格式不是数字。提前致谢！

r timestamp binning

2013-12-09T00:19:30.463

0 投票

1 回答

413 浏览

r - 如何使用分箱数据在 R 中生成被子图？

多亏了这个网站的帮助，我现在已经成功地编写了我的代码，将气象站降雨数据插入到 1 公里的网格上，并使用R绘制它。最后一段代码消除了不需要的数据，然后使用 quilt.plot 进行绘制。要绘制的数据 (mydf.final) 是具有以下标题的值列表：指数、东距、北距、降雨量和平均降雨量。如果我执行 dput，要绘制的数据样本如下所示：

我可以使用以下方法绘制这些数据：

这给了我一张我无法发布的图像，因为我没有足够的声望点。Amyway，该图是英国的地图，显示了不同颜色的降雨量，最大降雨量显示为红色，最小降雨量显示为蓝色。

虽然这没关系，但我想做两件事：

确保要绘制的所有降雨数据为 0 或更大。一些降雨数据是负值（例如 -1），那么在绘图之前如何将所有负值更改为 0？
而不是使用最小和最大（蓝色到红色）之间的颜色范围，我想将这些值合并，例如，蓝色是 0mm 到 5mm，浅蓝色是 5mm 到 10mm，黄色是 10mm 到 20mm，红色大于30mm 等。有什么想法可以实现吗？

r plot spatial binning

2013-12-11T08:56:19.103

0 投票

3 回答

403 浏览

r - R 分箱数据集和曲面图

我有一个大型数据集，我试图离散化并创建一个 3d 曲面图：

该数据集中目前有 695302 行。我试图根据第二列离散第三个“Feret”列，因此对于每个“wpbCount”bin，“Feret”列。

我认为解决方案将涉及使用 cut 但我不知道该怎么做。我想最终得到一个像这样的数据框：

r rgl binning

2013-12-31T03:41:22.833

0 投票

2 回答

3037 浏览

python - pandas 根据另一个列表的 qcut 对列表进行分箱

说我有一个清单：

和一个子列表：

我想通过pd.qcut(a,2)列表 b 的每个 bin 获取 bin 并计算值的数量。那是

现在我知道垃圾箱是：[1,3] 和 (3,8]，我想知道列表“b”的每个垃圾箱中有多少个值。当垃圾箱的数量为小，但是当垃圾箱的数量很大时，最好的方法是什么？

python pandas binning

2014-01-02T22:42:11.870

0 投票

3 回答

862 浏览

r - 如何在 R 数据框中按百分位数对计算数据进行分类

我有一个包含大量符号、日期和值的数据框

我想按符号拆分数据，计算 2 个最近日期的百分比变化，并按一些可变数量的组对数据进行分类，其中第一组具有最大的 pct 集。变化，下一个是第二大的，依此类推。每个组需要具有大致相同数量的符号。

理想情况下，我希望我的新数据框看起来像这样

对于 ddply 来说，这似乎是一项完美的任务，但我正在努力寻找工作。任何建议将不胜感激。感谢您的时间和帮助。

r dataframe binning

2014-01-07T22:53:52.317

0 投票

1 回答

1364 浏览

r - 从 datetime 开始按时间间隔平均前 5 分钟 bin

我很欣赏那里有类似的问题，但是，我似乎无法为我的查询找到正确的答案。我有一个数据集，我想根据我的时间戳以 5 分钟的间隔对一列中的数据进行平均，平均从小时的开始开始，例如，在前 5 分钟的 10:00 平均将是 09:56-10:00。

这是我的数据集的示例：

我已经尝试了下面的代码，但我无法让它按照我想要的方式工作。

这些是正确的平均值，但时间戳是 5 分钟期间的第一个时间戳，而不是最后一个时间戳，因此 R 给出的 12:01 实际上是 12:05（从 12:01 到 12:05 的时间段）。不幸的是，我似乎无法将输出转换为12/07/2013 12:05 -19.91691.

r timestamp time-series date-arithmetic binning

2014-01-08T10:19:11.080

0 投票

3 回答

429 浏览

r - R data.frame 中的 bin 形成

我有一个包含两列的 data.frame：

我需要编写一个带有两个参数的函数：dataframe，bin_size它在数量列上运行 a ，如果超过，cumsum则对后续行进行拆分，并添加一个正在运行的 bin 编号作为附加列。cumsumbin_size

说，通过输入：

在上面的例子中应该给我：

解释：

r binning

2014-01-10T13:58:28.440

0 投票

2 回答

2033 浏览

python - 合并 python 元组。由于空垃圾箱导致的错误

我在将列表项排序到垃圾箱时遇到问题。我有两个列表，X 和 Y，具有相应的 X 和 Y 值（显然也可以是一个元组列表）。接下来，我需要将 X 范围分成 10 个相等的 bin，并将 X 值和对应的 Y 值排序到这些 bin，这样我就知道哪些 Y 值属于哪个 X bin（即每个 Y 的 X 值落入哪个 bin value)，然后取每个 bin 中所有 Y 值的中值。这给了我十个 bin-median 对。原则上，使用以下代码可以正常工作，其中我还计算了每个 bin 的 X 中心。

现在的问题是有时一个 bin 是空的，因为这个 bin 中没有 X 值。在这种情况下，行

引发错误

因为空垃圾箱。我该如何解决？我也试过right=True/False了numpy.digitize，没有运气。我认为最好删除三个列表中的条目，bin_centers在进行计算中值的列表推导之前digitized和之前。bins但我不知道该怎么做，如何找出哪些垃圾箱是空的，然后从这些列表中删除什么以及如何删除。有任何想法吗？谢谢！

python list numpy binning

2014-01-20T18:38:21.813

问题标签 [binning]

Reference