问题标签 [binning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何对矩阵进行装箱
numpy.histogram(data, bins) 是一种非常快速有效的方法来计算数据数组中有多少元素落入由数组 bin 定义的 bin 中。是否有等效功能可以解决以下问题?我有一个 R 行乘以 C 列的矩阵。我想使用 bins 给出的定义对矩阵的每一行进行 bin 处理。结果应该是具有 R 行且列数等于箱数的进一步矩阵。
我尝试使用函数 numpy.histogram(data, bins) 作为输入矩阵,但我发现矩阵被视为具有 R*C 元素的数组。然后,结果是一个包含 Nbins 个元素的数组。
sql - dplyr 中是否提供 cut() 样式分箱?
有没有办法做一些类似函数来对表格cut()
中的数值进行分箱?dplyr
我正在处理一个大型 postgres 表,目前可以在一开始就在 sql 中编写 case 语句,或者输出未聚合的数据并应用cut()
。collect()
两者都有非常明显的缺点...... case 语句不是特别优雅,并且通过完全没有效率来提取大量记录。
python - 将数组数字化为几个 bin 列表
我有需要对数组进行 numpy.digitize 的情况。说,代码是
这工作得很好。但是,问题是我没有像示例中那样的一个 bin 列表,而是 my_array 中每个元素只有一个 bin 列表(因为每个元素属于具有自己的 bin 的不同数据集),所以len(my_array) == len(list_of_my_bin_lists)
. 这里是list_of_my_bin_lists = [my_bin_list1, my_bin_list2, ...]
。所以我需要告诉 digitize,对于第一个数组元素,它应该检查list_of_my_bin_lists[0]
该元素所属的 bin,对于第二个元素,list_of_my_bin_lists[1]
以此类推。那可能吗?我会想象类似的东西
必须返回数字化: [0, 0, 2]
c - 在数组中查找计数和
我已经为这段代码苦苦挣扎了几个小时,需要一些指导。我有一个包含 500 个数字的列表,我需要计算 150 到 200 之间有多少个数字。
在这一点上,我迷路了。我正在考虑如何设置一个带有计数器的程序来计算 150 < N < 200 的所有值。我认为这是解决这个问题的正确想法,但我不知道如何实现它。
python - 简单的肥尾日志分箱
我试图从Plotting log-binned network degree distributions中简化 log-binning 输出显示了原始分布和 log-binned 分布。但是,后者并没有像预期的那样单调递减,与原来的偏差很大。这个问题的最佳解决方案是什么?
python - 分箱值并使用分箱标签来引用另一个数据帧的索引
我正在为这项任务苦苦挣扎:
到目前为止我做了什么:我有 8760 个值,我根据一定的时间间隔将它们分类。间隔数为 10。然后我将值分组。
问题:现在我必须将此数据帧(df1)的每个“级别”引用到(df2)中另一个数据帧的索引,以逐行执行某个计算。(即)10个间隔指向另一个数据帧的10个索引。
现在我必须使用它来引用 (df2) 的索引
需要的解决方案: (-1, 0] 引用索引 '1',(0, 1] 引用索引 '2' 等等。这是对所有 8760 执行 (f11+f12+(f21*f22*f23))根据引用的索引逐行取值。
r - R中的分箱条形图
我想用 x 轴上的分箱数据和 y 轴上的相应概率制作条形图。每个 bin 应包含 100 个观察值。
这是我的工作数据框的快照:
head(covs)
y Intercept slope temp heatload cti
1 0 1 1.175494e-38 -7.106242 76 100
2 0 1 4.935794e-01 -7.100835 139 11
3 1 1 3.021236e-01 -7.097794 126 12
4 1 1 1.175494e-38 -7.097927 75 98
5 0 1 1.175494e-38 -7.098462 76 98
6 0 1 1.175494e-38 -6.363284 76 100
和初始执行:
结果如下:
我有两个问题:
在不牺牲解释力的情况下表示 x 轴的更好方法是什么?问题是间隔都是不同的长度,因为箱是由观察计数决定的。
在ggplot2中有更好的方法吗?
r - R bin 数据按唯一 ID
从data.frame:
RowColFovCellID 1Feret
001001000 1.1
001002000 0.3
001002000 0.2
001003000 1.5
001001000 3.4
001002000 2.4
003003001 0.7
001001000 3.6
我想按唯一 ID 对数据进行分类,并将结果显示为数据框中的新列,例如:
RowColFovCellID0-11-22-33-44-5
001001000 0 1 0 2 0
001002000 2 0 1 0 0
001003000 0 1 0 0 0
003003001 1 0 0 0 0
我试过使用 ddply 和 cut 但到目前为止还没有管理它。
谢谢
python - Python中函数的分箱值(numpy)
让我暴露我的问题:
我用 Python 和 Numpy 编写了一个软件,它产生了两个名为 X 和 Y 的 numpy 数组。
该值与函数相关:Y = f(X)
X 值属于区间 [0;1]。
numpy.histogram 允许在此间隔内将 X 值合并到预定义的等距 bin 中。
我想做的是在不执行“for”循环的情况下对每个 bin 对应的 Y 值求和。
非常感谢您的回答。
r - 使用 stat_summary2d 手动指定 bin
我有一大组数据,其中包含坐标 (x,y) 和一个类似于密度的数字 z 值。我有兴趣对数据进行分箱、执行汇总统计(中位数、长度等)并将分箱值绘制为点,并将统计数据映射到 ggplot 美学。
我尝试使用 stat_summary2d 并手动提取结果(基于此答案:https ://stackoverflow.com/a/22013347/2832911 )。但是,我遇到的问题是 bin 位置基于数据范围,在我的情况下,数据范围因数据集而异。因此,在两个地块之间,箱不覆盖相同的区域。
我的问题是如何使用 stat_summary2d 手动设置 bin,或者至少将它们设置为一致,而不管数据如何。
这是一个基本示例,它演示了该方法以及垃圾箱如何不对齐:
产生
实际上,我将多次使用 stat_summary2d 来获取例如 bin 中的点数和中位数,然后使用aes(size=bin.length, colour=bin.median)
.
欢迎任何有关如何使用我提出的方法或替代方法来完成此任务的提示。