问题标签 [discretization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
matlab - Matlab中的分位数排序
我有一个n
逐个1
向量 where n = 20000
。我想对这个向量中的数据做一个十分位排序,基本上就是用对应的十分位替换每个元素的值。
我目前正在这样做:
X
我的数据数组在哪里。我这样做是因为我想要 10 组数据,每组数据的数量相同。
您能否验证此程序或让我知道是否有更可靠的方法来执行此操作?
r - `cut` 的不一致行为:具有相同数量和相同显示切点的不同间隔
我遇到了以下不一致的行为,cut
这让我很头疼:
问题是cut
似乎在格式化(舍入)切割点之前选择了间隔。这导致示例中的行为不一致,即它选择了第二个区间,但会根据给定的切点选择第一个区间(可以在最后一行中看到)。
这对我来说是个问题,因为我的包中有两个函数:一个是计算切割点,第二个是确定放置新数据点的正确间隔。在上面的示例中,相同的数据点被放入第一个函数的第二个区间,但进入第二个函数的第一个区间 - 显示完全相同的切点!这可能会导致我的包裹中出现一些奇怪的行为!
我的问题
这是一个已知问题吗?如果是,是否有任何解决方法?谢谢
编辑
我知道您可以更改小数位数,dig.lab
但如果您有更多小数位的切点,则会出现同样的问题。上面的例子只是一个更一般问题的演示!
r - 错误:R 中 ifelse 中未使用的参数
我尝试使用以下代码使用 ifelse 语句对数据帧 df 中的列进行离散化。aar 列包含从 0 到 12 的十进制值和 NA。我检查数值是否并将其分配给如下类别。
但我收到以下错误,
我究竟做错了什么?任何人都可以帮我解决这个问题吗?
matlab - 连续时间系统离散化,矩阵指数,输出截断
有一个连续时间系统如下所示:
matlab代码如下:
但是,当我计算 B1 时,计算机显示“输出被截断”。
请帮我。
多谢。
matlab - 使用 Matlab 实现通用传递函数
我想知道任何人都可以告诉我如何使用 Matlab 实现传递函数 a1s+a2/(b1s+b2) 的含义是不使用 tf([a1 a2],[b1 b2]) 的离散形式的 for 循环。例如,如果我想实现 a1/s,我知道我会这样做:
其中 Ts 是采样频率,fx 是需要集成的函数。对于 a3*s,我会做以下事情:
但我想知道如何实现通用 (a1*s+a2)/(b1*s+b2)
谢谢
python - 如何使用 Pandas qcut 计算存储桶的值?
我正在使用 Pandas 的 qcut 为机器学习算法正确准备数据。我有带有价格的产品,我使用以下代码将我的数据离散化为大小相等的桶:
这个代码有更多关于我的标签的细节:
如下所示,我有 PriceBucket 和 PriceBucketTitle,它很完美!现在,我想要考虑到元素的数量。此代码返回 NaN 值(如下所示):
我知道如果我通过 PriceBucket 做一个 grouby 可能是可行的,但我想保留我的数据格式。这是结果:
例如,这就是我想要的:
帮助 ?谢谢!
performance - MATLAB:使用 bsxfun 加速离散化函数
对于当前的项目,我必须将准连续值离散化到由一些预定义的分箱分辨率定义的箱中。为此,我编写了一个函数,我希望它非常高效,因为它能够使用 bsxfun 处理标量输入和向量输入。然而,经过一些分析后,我发现我这个更大的项目的几乎所有处理时间都在这个函数中产生,并且在函数中,主要是 bsxfun 部分需要时间,其次是 min-query。长话短说,我正在寻找有关如何在 MATLAB 中更快地解决此任务的建议。旁注:我通常传递带有大约 50k 个元素的向量。
这是代码:
weka - 如何在 WEKA 中离散化一组值?
我有一组从 1 到 50 的整数值,我想离散化这个集合,以便使用范围而不是单个值(它们是决策树的大量数字)。假设我想要一个从 1 到 25 的范围和另一个从 26 到 50 的范围。我已经尝试使用离散化过滤器,但我没有任何工作。
你知道如何在 WEKA 中做到这一点吗?
先感谢您
python - 使用 Orange python 库进行交叉验证
我尝试使用 python 包“Orange”进行交叉验证。这个库看起来很不错,但我有一些问题。
对于版本信息,我使用 Python 2.7 和 Orange 2.7.8。我的任务很简单。我想通过(1)数字属性的离散化和(2)特征选择来验证具有交叉验证的模型。
如您所知,在这里,在交叉验证循环中处理离散化和特征选择很重要。换句话说,对于每个交叉验证循环,(1) 仅离散化训练数据,并对测试数据使用相同的 binning cut;(2) 从训练数据中获取重要特征,并将这些特征用于测试数据。
在研究了 Orange 之后,我编写了以下脚本。
简而言之,数据集(代码中的“数据”)包含数字和离散特征,我想做离散化(基于熵),然后在交叉验证过程中进行特征选择(基于信息增益的前 3 个特征)。
但是,error 表示在计算数字特征的信息增益时发生了错误。我认为特征选择是在离散化之前处理的。我认为一些小的修改是必要的,但在 web 上的 Orange 上没有很多示例......而且我对修改没有明显的想法。
你能给我一些修改的积分吗?谢谢你。