问题标签 [discretization]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何离散化R中的多列
我正在尝试离散化表中的 274 列并运行朴素贝叶斯和决策树算法。如何一次离散化多个列?我的变量 smalltrainv3 包含 275 列,第一列是一个因子(0-9 级)并且是数字。
每当我尝试使用 discretize 函数时,它都会告诉我 x 必须是数字。
python - Poisson (npr) Size Alteration Returns ValueError(wrt 任意路径和数组创建)
如果我使用泊松分布对非中心卡方分布进行采样,我无法更改大小,只能输入平均值“nc / 2”(我必须设置 size = 1 否则它也会返回相同的错误) :
如果我尝试将大小增加到正在运行的模拟数量
其中模拟 = 10000,我收到:
“ValueError:具有多个元素的数组的真值不明确。使用 a.any() 或 a.all()”
使用 1 次模拟运行代码会产生一个期望的结果,并且每次运行都会产生另一个随机路径。
但是,有必要让图形由模拟的每次迭代确定的路径组成。在不同的条件下,非中心卡方分布由代码确定:
这确实产生了预期的结果
尽管无法更改泊松分布的大小,我如何获得 x[t] 的不同路径(即,10,000 个模拟中的每一个都没有相同的路径)
如果需要:
r - 如何计算数据集每个特征的离散步数
我一直在寻找一种方法来计算当数据集不是正态分布时训练分类模型所需的最小样本数Ne(min) 。一篇研究论文提出以下建议:
如果数据不是正态分布,则假定 d 和 N 之间存在指数关系,并且所需的样本数量可能如下所示:
Ne(min) = Dsteps^d
其中Dsteps是每个特征的离散步数.
d:数据集的维度。
....
考虑直方图方法来理解这种关系很有用。如果我们想从每个 bin 中至少有一个样本并且每个特征有Dsteps离散步骤的数据构建直方图,我们将需要至少Dsteps ^d 个样本。
在这种情况下,准确建模数据所需的样本数是 d 的指数函数。
如果有人能帮助我获得/计算这个度量,我将非常感激:每个特征的离散步数。
使用 R 或 Matlab 代码进行解释会非常有帮助。谢谢 :D
编辑:
论文参考:Christiaan Maarten Van Der Walt:表征分类问题的数据度量,2008 年。
python-3.x - 在python中列出2个范围和n个元素
我怎样才能创建一个系列的数字列表?例如 function(0, 2, 5) from 0 to 2 with 5 elements --> [0, 0.5, 1, 1.5, 2] python中有没有可以做到的函数?
python - 以统一的 bin 大小移动 bin 边缘 - Python
我想使用固定的 bin 大小对我的数据进行 bin 处理,但希望能够移动 bin 边缘以操纵最终进入 bin 的数据数量。我唯一的限制是箱大小,我想最大化连续箱中的数据点
例如:
上面的代码将创建 4 个 bin,从 9.99 到 11.6、11.6 到 13.2 等等,这将导致第一个 bin 中有 4 个数据点,第二个 bin 中有 1 个数据点,第三个 bin 中有 3 个数据点。
(直方图不需要这个,但添加了标签,因为它涵盖了相同的概念)
无论如何都没有使用for循环编写函数来实现这一点
r - 在R中离散化堆栈中的所有栅格
我正在尝试将 R 中的 5 个堆叠栅格同时离散化为四分位数。我已经编写了以下循环来执行此操作,但它似乎无法正常工作。在代码中,“stack.disc”是堆栈,“quartiles”是一个 5 列数据框,其中 5 个栅格作为列,它们的四分位值列在行中。
代码运行但仅在堆栈中的前 3 个栅格上运行。任何想法为什么它不适用于最后 2 个?
谢谢!
classification - weka中的通过/失败学校成绩二进制分类
我正在使用 Weka 进行数据挖掘。我的数据正在考虑学校成绩(0 到 20 之间的数字输出)。我希望通过二进制分类对成绩进行建模(即如果成绩> = 10,则为“通过”,否则为“失败”)。但是当我在 Weka 中使用离散化并进行分箱(通过定义 2 个箱)时,值 = 10 进入较低的箱(失败组)。我希望 values=10 成为上部 bin(通过组)的一部分。我怎么解决这个问题?
r - csv 读取数据集的“类变量需要成为一个因素”错误
我希望离散化机器学习数据集中的连续特征,特别是使用有监督的离散化。事实证明r [为此有一个包/方法] 1,太棒了!但由于我不精通 RI,因此存在一些问题,如果您能提供帮助,我将不胜感激。
我收到一个错误
类变量需要是一个因素。
我在网上看了一个例子,他们似乎没有这个问题,但我有。请注意,我不太了解语法 V2 ~ .
,除此之外V2
应该是列名。
R 报告以下错误:
.parseformula(formula, data) 中的错误:类变量必须是一个因素!
您可以在此处找到数据集 wine.data:https://pastebin.com/hvDbEtMN discretizeDF.supervised的第 一个参数是一个公式,这似乎是问题所在。
请帮忙!先感谢您。
mesh - Gmsh 中空心圆环的 3-D 网格划分问题
我想创建一个空心或厚半圆环,为此,我使用以下命令:
当我尝试创建 3D 网格时,会出现以下错误:
为什么会这样?怎么可能修复?。