问题标签 [discretization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
465 浏览

matlab - Matlab中的分位数排序

我有一个n逐个1向量 where n = 20000。我想对这个向量中的数据做一个十分位排序,基本上就是用对应的十分位替换每个元素的值。

我目前正在这样做:

X我的数据数组在哪里。我这样做是因为我想要 10 组数据,每组数据的数量相同。

您能否验证此程序或让我知道是否有更可靠的方法来执行此操作?

0 投票
1 回答
153 浏览

r - `cut` 的不一致行为:具有相同数量和相同显示切点的不同间隔

我遇到了以下不一致的行为,cut这让我很头疼:

问题是cut似乎在格式化(舍入)切割点之前选择了间隔。这导致示例中的行为不一致,即它选择了第二个区间,但会根据给定的切点选择第一个区间(可以在最后一行中看到)。

这对我来说是个问题,因为我的包中有两个函数:一个是计算切割点,第二个是确定放置新数据点的正确间隔。在上面的示例中,相同的数据点被放入第一个函数的第二个区间,但进入第二个函数的第一个区间 - 显示完全相同的切点!这可能会导致我的包裹中出现一些奇怪的行为!

我的问题
这是一个已知问题吗?如果是,是否有任何解决方法?谢谢

编辑
我知道您可以更改小数位数,dig.lab但如果您有更多小数位的切点,则会出现同样的问题。上面的例子只是一个更一般问题的演示!

0 投票
1 回答
4892 浏览

r - 错误:R 中 ifelse 中未使用的参数

我尝试使用以下代码使用 ifelse 语句对数据帧 df 中的列进行离散化。aar 列包含从 0 到 12 的十进制值和 NA。我检查数值是否并将其分配给如下类别。

但我收到以下错误,

我究竟做错了什么?任何人都可以帮我解决这个问题吗?

0 投票
1 回答
219 浏览

matlab - 连续时间系统离散化,矩阵指数,输出截断

有一个连续时间系统如下所示: 在此处输入图像描述 在此处输入图像描述

matlab代码如下:

但是,当我计算 B1 时,计算机显示“输出被截断”。

请帮我。

多谢。

0 投票
1 回答
122 浏览

matlab - 使用 Matlab 实现通用传递函数

我想知道任何人都可以告诉我如何使用 Matlab 实现传递函数 a1s+a2/(b1s+b2) 的含义是不使用 tf([a1 a2],[b1 b2]) 的离散形式的 for 循环。例如,如果我想实现 a1/s,我知道我会这样做:

其中 Ts 是采样频率,fx 是需要集成的函数。对于 a3*s,我会做以下事情:

但我想知道如何实现通用 (a1*s+a2)/(b1*s+b2)

谢谢

0 投票
0 回答
1221 浏览

python - 如何使用 Pandas qcut 计算存储桶的值?

我正在使用 Pandas 的 qcut 为机器学习算法正确准备数据。我有带有价格的产品,我使用以下代码将我的数据离散化为大小相等的桶:

这个代码有更多关于我的标签的细节:

如下所示,我有 PriceBucket 和 PriceBucketTitle,它很完美!现在,我想要考虑到元素的数量。此代码返回 NaN 值(如下所示):

我知道如果我通过 PriceBucket 做一个 grouby 可能是可行的,但我想保留我的数据格式。这是结果:

例如,这就是我想要的:

帮助 ?谢谢!

0 投票
2 回答
406 浏览

performance - MATLAB:使用 bsxfun 加速离散化函数

对于当前的项目,我必须将准连续值离散化到由一些预定义的分箱分辨率定义的箱中。为此,我编写了一个函数,我希望它非常高效,因为它能够使用 bsxfun 处理标量输入和向量输入。然而,经过一些分析后,我发现我这个更大的项目的几乎所有处理时间都在这个函数中产生,并且在函数中,主要是 bsxfun 部分需要时间,其次是 min-query。长话短说,我正在寻找有关如何在 MATLAB 中更快地解决此任务的建议。旁注:我通常传递带有大约 50k 个元素的向量。

这是代码:

0 投票
1 回答
535 浏览

r - 无法在 R 中为关联规则离散化数据(先验)

再会,

我一直在尝试在 R 中使用 arules 和 apriori 作为我的数据,但无济于事。

例如,我的数据来自 excel(csv 格式),它有 1000 个实验,1 和 0。

在此处输入图像描述

如您所见,离散化似乎破坏了列的数据,我一直在谷歌搜索解决方案,但我真的找不到正确的解决方案。

这个有什么解决办法??

先感谢您!

0 投票
1 回答
376 浏览

weka - 如何在 WEKA 中离散化一组值?

我有一组从 1 到 50 的整数值,我想离散化这个集合,以便使用范围而不是单个值(它们是决策树的大量数字)。假设我想要一个从 1 到 25 的范围和另一个从 26 到 50 的范围。我已经尝试使用离散化过滤器,但我没有任何工作。

你知道如何在 WEKA 中做到这一点吗?

先感谢您

0 投票
1 回答
458 浏览

python - 使用 Orange python 库进行交叉验证

我尝试使用 python 包“Orange”进行交叉验证。这个库看起来很不错,但我有一些问题。

对于版本信息,我使用 Python 2.7 和 Orange 2.7.8。我的任务很简单。我想通过(1)数字属性的离散化和(2)特征选择来验证具有交叉验证的模型。

如您所知,在这里,在交叉验证循环中处理离散化和特征选择很重要。换句话说,对于每个交叉验证循环,(1) 仅离散化训练数据,并对测试数据使用相同的 binning cut;(2) 从训练数据中获取重要特征,并将这些特征用于测试数据。

在研究了 Orange 之后,我编写了以下脚本。

简而言之,数据集(代码中的“数据”)包含数字和离散特征,我想做离散化(基于熵),然后在交叉验证过程中进行特征选择(基于信息增益的前 3 个特征)。

但是,error 表示在计算数字特征的信息增益时发生了错误。我认为特征选择是在离散化之前处理的。我认为一些小的修改是必要的,但在 web 上的 Orange 上没有很多示例......而且我对修改没有明显的想法。

你能给我一些修改的积分吗?谢谢你。