问题标签 [binning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1034 浏览

r - R帮助:确定间隔,对数字进行分箱

我正在尝试将一些随机生成的数字“合并”在我之前拥有的值向量中的相邻值之间定义的间隔之间。所以基本上,我有以下几点:

vectorA包含从 101 到 0 的 101 个值。我生成一个名为 x 的随机数。现在我想看看在vectorA中相邻的两个数字之间的哪个区间它属于哪个区间?最后,一旦找到区间,我就会返回这两个值。

我有一个 if 语句;if (x < vectorA[k] | x > vectorA[k+1]),在for循环下,因此if语句可以遍历vectorA的所有增量。

我想远离 R 的休息方法,因为我需要获取实际的 bin 间隔值并使用它们来计算一些东西。

0 投票
2 回答
3466 浏览

python - 快速分类(分箱)

我有大量的条目,每一个都是一个浮点数。这些数据x可以通过迭代器访问。我需要使用选择对所有条目进行分类,例如10<y<=20, 20<y<=50, ....y来自其他可迭代对象的数据在哪里。条目的数量远远超过选择的数量。最后,我想要一本字典,例如:

或类似的东西。例如我在做:

一般来说y是多维的。

这很慢,是否有更快的解决方案,例如使用 numpy?我认为问题来自list.append我正在使用的方法,而不是来自binner_function

0 投票
2 回答
720 浏览

matlab - MatLab - 具有许多边向量的 histc

考虑一下:

现在我想有相同的输出,但每个a值有一个不同的“边”向量,即一个矩阵而不是一个边向量。例子:

我可以histc在一个for循环内做到这一点,我试图避免循环。

0 投票
4 回答
86568 浏览

r - 在数据框上定义和应用自定义 bin

使用 python,我创建了以下包含相似性值的数据框:

我正在尝试编写一个 R 脚本来生成另一个反映 bin 的数据帧,但是如果值高于 0.5,则我的 binning 条件适用,这样

伪代码:

基于以上逻辑,我想建立一个数据框

如何将其作为脚本启动,或者我应该在 python 中执行此操作?在了解 R 的强大程度/它拥有的机器学习包的数量之后,我正在尝试熟悉它。我的目标是建立一个分类器,但首先我需要熟悉 R :)

0 投票
1 回答
624 浏览

plot - how many bins given some data

I have to plot some data using histograms. My data are between [0,1], with no large concentrations on any particular point.

What's a good ratio between number of samples and number of bins (of equal length)?

0 投票
3 回答
1433 浏览

r - R如何对加权数据进行分箱

嗨,我正在尝试在 ggplot 中绘制直方图,但我的数据没有所有值,而是值和出现次数。

任何人都会知道如何对值进行分箱或如何绘制分箱值的直方图。
我想得到一些看起来像的东西

0 投票
4 回答
14201 浏览

python - Python:如何制作具有相同*大小*箱的直方图

我有一组数据,并想制作它的直方图。我需要 bin 具有相同的size,我的意思是它们必须包含相同数量的对象,而不是更常见的(numpy.histogram)问题,即具有等间距的bin。这自然会以箱体宽度为代价,而箱体宽度可能——而且通常会——有所不同。

我将指定所需的 bin 数量和数据集,作为回报获得 bin 边缘。

所以 bin 都包含 2 个点,但它们的宽度(0.3、0.8、0.02)不同。

有两个限制: - 如果一组数据相同,则包含它们的 bin 可能更大。- 如果有 N 个数据并且请求了 M 个 bin,如果 N%M 不为 0,则将有 N/M 个 bin 加一。

这段代码是我写的一些杂乱无章的代码,它适用于小型数据集。如果我有 10**9+ 分并想加快流程怎么办?

0 投票
5 回答
105186 浏览

r - 将数值变量分类为组/箱/中断

我正在尝试将数字变量(年龄)分类为由间隔定义的组,因此它不会是连续的。我有这个代码:

上面的代码在生存包下不起作用。它给了我:

你能指出错误在哪里吗?data是我正在使用的数据框。

0 投票
1 回答
4832 浏览

matlab - 在matlab中更改电影尺寸

在执行 2 倍合并后,我正在尝试使用“电影”功能显示来自外部摄像头的实时视频。我的原始视频尺寸是 768x576。但是,当我对像素进行分类时,我会得到一个 384x288 的图像,当它显示时,它看起来是原始视频大小的一半。有什么办法可以增加电影的显示大小,使其看起来与原始大小相同?换句话说,我的像素看起来会是两倍大小。

我试过使用set(gca,'Position'...),但它不会改变我电影的大小。

有什么建议吗?

0 投票
1 回答
3324 浏览

matlab - 离散化连续数据的分箱技术

我有以下数据集,

第 1 至 6 列

我正在尝试使用二进制拆分来构建决策树,其中一个问题是数据继续存在,并且我当前的实现通过保持数据原样并进行拆分而变得计算密集。我必须说,如果你只是构建一个分类器,那就太糟糕了。

就我而言,我正在做十倍并将分类器从 5-50(装袋)增加。我正在考虑以这种方式将数据存储到 0.2 个存储桶中,但我意识到存在负数。我正在使用 matlab 来实现。我是一个 Matlab NewB,不确定是否有预定义的方法来处理这样的场景。