问题标签 [discretization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
13144 浏览

r - 使用 arules 包在 R 中进行离散化

我正在使用 arules 包来离散化数据框中的连续变量。我正在使用这个特定的行

离散化(数据 1,类别 = 3)

但它给了我一个错误

cut.default(x,k2) 中的错误:k2 必须是数字

我只是想将我的连续变量从“data1”数据帧转换为 3 箱离散变量。任何帮助将不胜感激...在此先感谢

0 投票
1 回答
479 浏览

numpy - 使用 np.histogram 对连续属性进行离散化 - 如何应用于新数据点?

继续如何在sklearn中对连续属性进行离散化?

在我从训练数据中“学习”我的 bin 之后,np.histogram(A['my_var'])如何将它应用到我的测试集上?每个数据点的 my_var 属性在哪个 bin 中?如果重要的话,我的训练数据和测试数据都在 pandas 数据框中。

谢谢

0 投票
2 回答
8676 浏览

scikit-learn - Scikit Learn - 随机森林:如何处理连续特征?

随机森林接受数字数据。通常,带有文本数据的特征被转换为数字类别,连续的数字数据按原样输入,没有离散化。RF如何处理创建节点的连续数据?它会在内部对连续的数值数据进行分类吗?或将每个数据视为离散级别。

例如:我想向 RF 提供一个数据集(当然是在对文本特征进行分类之后)。RF如何处理连续数据?是否建议在喂食之前离散化连续数据(在这种情况下为经度和纬度)?还是这样做信息丢失了?

显示经度和纬度特征中的连续数据的图像

0 投票
1 回答
707 浏览

r - 如何在 R 中控制 CutPoints(在执行监督分箱时)

我正在使用 R 的“离散化”包。在找到切点时,我得到以下结果。

命令 :

其中Dist_to_Stream是数值变量,Malaria_w3是类(分类)

输出切点太多(34 个 bin)。有没有办法在监督(基于熵)分箱时控制切割点的数量?

提前致谢..

0 投票
1 回答
519 浏览

simulink - 连续状态空间模型的离散化

根据论文http://www.uta.edu/utari/acs/ee4314/lectures/Lecture%207b.pdf(最后一页),我在 Simulink 中实现了倒立摆的数学模型。我现在的任务是离散化这样的模型并在 Simulink(离散 PID)中设计一个离散控制器。

从理论上我知道系统的采样时间必须满足奈奎斯特采样定理。

如何估计(理论上或实验上)连续时间模型的最高频率以选择合适的采样时间?

谢谢

0 投票
1 回答
50 浏览

java - 如何在 Banjo 中为变量设置任意数量的值

我正在使用 Banjo(BAyesian Network inference with Java Objects)来分析一组数据。我希望每个变量采用超过 7 个值的范围(Banjo 将此限制放在变量可以采用的值的数量中),而不使用 Banjo 离散化策略(ix,qx)。有什么办法可以只修改设置文件,还是我必须修改代码?谢谢

0 投票
1 回答
676 浏览

machine-learning - 分箱不平衡数据

我有一个不平衡的数字数据集,如下所示:

数据集.

我需要将数据分箱到 8 个箱中,但是如果我将箱设置为相同大小,我会将所有数据仅放入两个箱中,而中间的其余部分将为空。

有没有一种统计或数学方法可以在有很多数据点时用细粒度的 bin 离散数据,然后在数据点很少时使其更粗粒度的 bin?

0 投票
1 回答
219 浏览

matlab - MATLAB:如何离散化 10 个变量的函数(目前使用 ndgrid 和 arrayfun)?

我有一个功能

我想离散化。我将执行涉及此函数的优化,我认为优化的效率将受益于离散函数,然后对数据进行样条插值,而不必评估连续函数。本质上,我希望 output1 和 output2 中的每一个都有一个 10 维双精度,它们与 v1、v2、... v10 的不同值相关。

有了无限的时间和记忆,我会做以下事情:

时间和内存(需要执行 ndgrid 和 arrayfun)显然不允许这样做。谁能想到变通方法,或者这个离散化 10 个变量的函数的问题完全难以解决?

0 投票
1 回答
1009 浏览

signals - Simulink:实时互相关

我正在做一个项目,完全解释起来很复杂,但它如下所示:

我们有 2 个信号 A 和 B,其中 B 是 A 的时间延迟回波。我想使用实时互相关来表明时间延迟将保持不变,而信号通过的介质不会改变。

由于我缺乏 Simulink 和 Communications Statistics 等方面的经验而出现问题。

那么我该怎么做呢?我有两个连续信号 A 和 B,我相信我要做的就是将它们转换为离散信号,然后使用基于帧的处理和 XCORR ......但我只是不知道该怎么做。

任何人都可以帮忙吗?或者甚至提供如何交叉关联两个连续信号的示例/如何使用 XCORR 和基于帧的处理的示例?

0 投票
1 回答
251 浏览

r - 离散化连续变量的对数

我正在尝试离散化一个连续变量,将其分成三个级别。我想对正连续变量(在本例中为收入)的对数做同样的事情。

我原以为使用cut()会对每个变量(收入和对数收入)的离散化因子产生相同的水平,因为对数是单调函数。所以这里右边的两列应该是相等的,但这似乎没有发生。这是怎么回事?

编辑: @nicola 的评论解释了问题的根源。似乎在cut的文档中,“等长间隔”是指连续参数空间中的间隔长度。我最初将“等长间隔”解释为意味着分配给每个剪辑(在输出上)的元素数量将相等(而不是输入)。

有没有我所描述的功能?-- 每个输出级别中的元素数量是相等的吗?等效地, 和 的水平在哪里newfunc(realinc)相等newfunc(logrealinc)