问题标签 [binning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R帮助:确定间隔,对数字进行分箱
我正在尝试将一些随机生成的数字“合并”在我之前拥有的值向量中的相邻值之间定义的间隔之间。所以基本上,我有以下几点:
vectorA
包含从 101 到 0 的 101 个值。我生成一个名为 x 的随机数。现在我想看看在vectorA中相邻的两个数字之间的哪个区间它属于哪个区间?最后,一旦找到区间,我就会返回这两个值。
我有一个 if 语句;if (x < vectorA[k] | x > vectorA[k+1])
,在for循环下,因此if语句可以遍历vectorA的所有增量。
我想远离 R 的休息方法,因为我需要获取实际的 bin 间隔值并使用它们来计算一些东西。
python - 快速分类(分箱)
我有大量的条目,每一个都是一个浮点数。这些数据x
可以通过迭代器访问。我需要使用选择对所有条目进行分类,例如10<y<=20
, 20<y<=50
, ....y
来自其他可迭代对象的数据在哪里。条目的数量远远超过选择的数量。最后,我想要一本字典,例如:
或类似的东西。例如我在做:
一般来说y
是多维的。
这很慢,是否有更快的解决方案,例如使用 numpy?我认为问题来自list.append
我正在使用的方法,而不是来自binner_function
matlab - MatLab - 具有许多边向量的 histc
考虑一下:
现在我想有相同的输出,但每个a
值有一个不同的“边”向量,即一个矩阵而不是一个边向量。例子:
我可以histc
在一个for
循环内做到这一点,我试图避免循环。
r - 在数据框上定义和应用自定义 bin
使用 python,我创建了以下包含相似性值的数据框:
我正在尝试编写一个 R 脚本来生成另一个反映 bin 的数据帧,但是如果值高于 0.5,则我的 binning 条件适用,这样
伪代码:
基于以上逻辑,我想建立一个数据框
如何将其作为脚本启动,或者我应该在 python 中执行此操作?在了解 R 的强大程度/它拥有的机器学习包的数量之后,我正在尝试熟悉它。我的目标是建立一个分类器,但首先我需要熟悉 R :)
plot - how many bins given some data
I have to plot some data using histograms. My data are between [0,1], with no large concentrations on any particular point.
What's a good ratio between number of samples and number of bins (of equal length)?
r - R如何对加权数据进行分箱
嗨,我正在尝试在 ggplot 中绘制直方图,但我的数据没有所有值,而是值和出现次数。
任何人都会知道如何对值进行分箱或如何绘制分箱值的直方图。
我想得到一些看起来像的东西
python - Python:如何制作具有相同*大小*箱的直方图
我有一组数据,并想制作它的直方图。我需要 bin 具有相同的size,我的意思是它们必须包含相同数量的对象,而不是更常见的(numpy.histogram)问题,即具有等间距的bin。这自然会以箱体宽度为代价,而箱体宽度可能——而且通常会——有所不同。
我将指定所需的 bin 数量和数据集,作为回报获得 bin 边缘。
所以 bin 都包含 2 个点,但它们的宽度(0.3、0.8、0.02)不同。
有两个限制: - 如果一组数据相同,则包含它们的 bin 可能更大。- 如果有 N 个数据并且请求了 M 个 bin,如果 N%M 不为 0,则将有 N/M 个 bin 加一。
这段代码是我写的一些杂乱无章的代码,它适用于小型数据集。如果我有 10**9+ 分并想加快流程怎么办?
r - 将数值变量分类为组/箱/中断
我正在尝试将数字变量(年龄)分类为由间隔定义的组,因此它不会是连续的。我有这个代码:
上面的代码在生存包下不起作用。它给了我:
你能指出错误在哪里吗?data
是我正在使用的数据框。
matlab - 在matlab中更改电影尺寸
在执行 2 倍合并后,我正在尝试使用“电影”功能显示来自外部摄像头的实时视频。我的原始视频尺寸是 768x576。但是,当我对像素进行分类时,我会得到一个 384x288 的图像,当它显示时,它看起来是原始视频大小的一半。有什么办法可以增加电影的显示大小,使其看起来与原始大小相同?换句话说,我的像素看起来会是两倍大小。
我试过使用set(gca,'Position'...)
,但它不会改变我电影的大小。
有什么建议吗?
matlab - 离散化连续数据的分箱技术
我有以下数据集,
第 1 至 6 列
我正在尝试使用二进制拆分来构建决策树,其中一个问题是数据继续存在,并且我当前的实现通过保持数据原样并进行拆分而变得计算密集。我必须说,如果你只是构建一个分类器,那就太糟糕了。
就我而言,我正在做十倍并将分类器从 5-50(装袋)增加。我正在考虑以这种方式将数据存储到 0.2 个存储桶中,但我意识到存在负数。我正在使用 matlab 来实现。我是一个 Matlab NewB,不确定是否有预定义的方法来处理这样的场景。