问题标签 [binning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在python中对列表进行分箱
首先,我想说我是 python 新手,这段代码是在 stackoverflow 用户的建议和建议之外创建的。代码如下所示:
原始图是 P 和 Mag 的散点图。但是,每个时期都有多个 Mag 点。我希望尝试创建一个新的散点图,我可以在其中获取所有这些 Y 值并对每个单独的 X 值取平均值,从而创建一个有两个下降的更紧密的图表。
我曾尝试查看各种数据分箱方法,但无论我使用哪种方法,包含分箱数据的图表似乎都无法正确显示。X 值应该从 0 到 1 运行,就像在预分箱数据图上一样。
这是我正在使用的数据,以防您需要查看它。
任何人都可以就如何创建分箱数据图提供任何建议或建议吗?我对数据分箱的了解非常少。
感谢您的时间!
r - R中的分箱时间序列?
我是 R 新手。我的数据有 600k 个对象,由三个属性定义Id
:Date
和TimeOfCall
.
TimeofCall
具有00:00:00
格式和范围从00:00:00
到23:59:59
。
我想将TimeOfCall
属性分箱,分成 24 个箱,每个箱代表每小时时段(第一个箱00:00:00
到00:59:59
等等)。
有人可以告诉我如何做到这一点吗?我尝试使用cut()
但显然我的格式不是数字。提前致谢!
r - 如何使用分箱数据在 R 中生成被子图?
多亏了这个网站的帮助,我现在已经成功地编写了我的代码,将气象站降雨数据插入到 1 公里的网格上,并使用R绘制它。最后一段代码消除了不需要的数据,然后使用 quilt.plot 进行绘制。要绘制的数据 (mydf.final) 是具有以下标题的值列表:指数、东距、北距、降雨量和平均降雨量。如果我执行 dput,要绘制的数据样本如下所示:
我可以使用以下方法绘制这些数据:
这给了我一张我无法发布的图像,因为我没有足够的声望点。Amyway,该图是英国的地图,显示了不同颜色的降雨量,最大降雨量显示为红色,最小降雨量显示为蓝色。
虽然这没关系,但我想做两件事:
确保要绘制的所有降雨数据为 0 或更大。一些降雨数据是负值(例如 -1),那么在绘图之前如何将所有负值更改为 0?
而不是使用最小和最大(蓝色到红色)之间的颜色范围,我想将这些值合并,例如,蓝色是 0mm 到 5mm,浅蓝色是 5mm 到 10mm,黄色是 10mm 到 20mm,红色大于30mm 等。有什么想法可以实现吗?
r - R 分箱数据集和曲面图
我有一个大型数据集,我试图离散化并创建一个 3d 曲面图:
该数据集中目前有 695302 行。我试图根据第二列离散第三个“Feret”列,因此对于每个“wpbCount”bin,“Feret”列。
我认为解决方案将涉及使用 cut 但我不知道该怎么做。我想最终得到一个像这样的数据框:
python - pandas 根据另一个列表的 qcut 对列表进行分箱
说我有一个清单:
和一个子列表:
我想通过pd.qcut(a,2)
列表 b 的每个 bin 获取 bin 并计算值的数量。那是
现在我知道垃圾箱是:[1,3] 和 (3,8],我想知道列表“b”的每个垃圾箱中有多少个值。当垃圾箱的数量为小,但是当垃圾箱的数量很大时,最好的方法是什么?
r - 如何在 R 数据框中按百分位数对计算数据进行分类
我有一个包含大量符号、日期和值的数据框
我想按符号拆分数据,计算 2 个最近日期的百分比变化,并按一些可变数量的组对数据进行分类,其中第一组具有最大的 pct 集。变化,下一个是第二大的,依此类推。每个组需要具有大致相同数量的符号。
理想情况下,我希望我的新数据框看起来像这样
对于 ddply 来说,这似乎是一项完美的任务,但我正在努力寻找工作。任何建议将不胜感激。感谢您的时间和帮助。
r - 从 datetime 开始按时间间隔平均前 5 分钟 bin
我很欣赏那里有类似的问题,但是,我似乎无法为我的查询找到正确的答案。我有一个数据集,我想根据我的时间戳以 5 分钟的间隔对一列中的数据进行平均,平均从小时的开始开始,例如,在前 5 分钟的 10:00 平均将是 09:56-10:00。
这是我的数据集的示例:
我已经尝试了下面的代码,但我无法让它按照我想要的方式工作。
这些是正确的平均值,但时间戳是 5 分钟期间的第一个时间戳,而不是最后一个时间戳,因此 R 给出的 12:01 实际上是 12:05(从 12:01 到 12:05 的时间段)。不幸的是,我似乎无法将输出转换为12/07/2013 12:05 -19.91691
.
r - R data.frame 中的 bin 形成
我有一个包含两列的 data.frame:
我需要编写一个带有两个参数的函数:dataframe
,bin_size
它在数量列上运行 a ,如果超过 ,cumsum
则对后续行进行拆分,并添加一个正在运行的 bin 编号作为附加列。cumsum
bin_size
说,通过输入:
在上面的例子中应该给我:
解释:
python - 合并 python 元组。由于空垃圾箱导致的错误
我在将列表项排序到垃圾箱时遇到问题。我有两个列表,X 和 Y,具有相应的 X 和 Y 值(显然也可以是一个元组列表)。接下来,我需要将 X 范围分成 10 个相等的 bin,并将 X 值和对应的 Y 值排序到这些 bin,这样我就知道哪些 Y 值属于哪个 X bin(即每个 Y 的 X 值落入哪个 bin value),然后取每个 bin 中所有 Y 值的中值。这给了我十个 bin-median 对。原则上,使用以下代码可以正常工作,其中我还计算了每个 bin 的 X 中心。
现在的问题是有时一个 bin 是空的,因为这个 bin 中没有 X 值。在这种情况下,行
引发错误
因为空垃圾箱。我该如何解决?我也试过right=True/False
了numpy.digitize
,没有运气。我认为最好删除三个列表中的条目,bin_centers
在进行计算中值的列表推导之前digitized
和之前。bins
但我不知道该怎么做,如何找出哪些垃圾箱是空的,然后从这些列表中删除什么以及如何删除。有任何想法吗?谢谢!