问题标签 [discretization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
281 浏览

r - 无监督离散化将连续转换为分类用于频繁项集挖掘

我正在使用包“arules”来挖掘我的大数据中的频繁项集,但我找不到合适的离散化方法。

作为包'arules'中的示例,可以在函数'离散化'中使用几种基本的无监督方法,但我想估计我的大型数据集中的最佳类别数,这似乎比分配类别数更合理。

能否给我一些好的建议,谢谢。

@迈克尔·哈斯勒

0 投票
0 回答
1399 浏览

r - 离散化 R 中的一列

假设有这样的数据框:

我想将b列中的数据和接收范围的输入均值离散化为已处理数据帧指定列中实例的离散值。预测结果可能如下所示:

我遇到了arules中的discretize等函数

我想这可以解决问题,但我发现无法将手段输入回df

编辑

感谢评论中给出的解决方案,我能够在范围之间实现令人满意的原始数据分布。我也在df$b <- iris$Petal.Length(@alistaire 解决方案)上对其进行了测试:

结果如下:

如果有人知道离散化数据框中列实例的其他方法,将不胜感激。(尤其是离散化,它可以在具有相等实例数的范围内划分数据)

0 投票
1 回答
673 浏览

r - 将数据框值分解为四分位数/十分位数范围

我正在尝试创建与我的数据框值相对应的十分位数因子。我希望因子显示为一个范围,例如,如果值为“164”,那么因子结果应该是“160 - 166”。

过去我会这样做:

相反,我想应用一个函数,将值分解为十分位数范围。我想避免手动设置因子标签,因为我将运行许多查询并绘制具有离散图例的地图。我创建了一个名为 Value.fc 的列,但我无法将其从 "(160, 166]" 格式化为 "160 - 166"。请参阅下面有问题的代码:

0 投票
1 回答
204 浏览

python - 用另一个整数列表离散一个列表

我在 python 中离散化时遇到问题。

我有一个清单st

我想将“st”离散化为由不同列表确定的多个部分。换句话说,我想将列表中的每个元素分成n几部分。

例如,我想除以列表 b= 的元素(3,3,6,2)。因此(-0.8,0.8)将分为3个部分。(-0.5,0.5)将被分成 3 个部分,依此类推。

输出应该看起来像 st=[[(-0.8,-0.2),(-0.2,0.2),(0.2,0.8)),....]] 谢谢。

0 投票
1 回答
140 浏览

fft - 非均匀网格的 3d 傅立叶逆变换

我的数据由函数的傅里叶变换给出,其中点分布在一个球中,具有均匀分布的距离和均匀分布的球角(不是高斯角)。

所以傅里叶空间中的网格显然是不均匀的(均匀的球角意味着球面上的分布不均匀)。

我需要从这些数据中重建函数。我还不关心算法的有效性,但我想知道原则上是否可以从这些数据中重建它。我知道重建对傅里叶空间中的网格非常敏感。

ps 我知道例如在 2D 中,统一的极坐标网格是可以的。

pps我试图通过离散化3D傅里叶积分来进行反演——所以它将是球中所有点的总和乘以各自的指数并乘以离散的雅可比(球坐标)。我得到的照片并不令人满意。

test_reconstruction.png

在这张图片上,它应该是中间的一个小正方形(3D 正方形的幻灯片)。

0 投票
1 回答
2370 浏览

python - 根据自定义范围离散化 Pandas 列

有没有办法根据自定义限制从 Pandas 数据框中离散化列(意味着范围不等长)?以前在这里提出的问题不包括这种情况。

例如,假设我们要将数字等级(4 分)转换为 bin,如下所示:

3.75 至 4:优秀

3.5 至 3.75:非常好

3.25 至 3.5:好

3 到 3.25:平均

2.5 到 3:差

低于 2.5:非常差

我知道可以使用一系列ifs 和elses 来完成,但我一直在寻找一种更清洁、更灵活(用于更多垃圾箱)的方法来做到这一点。

0 投票
1 回答
123 浏览

floating-point - 是否应该将低于机器精度的矩阵条目切为零?

我有一个双精度复数算术代码,它形成大型稀疏矩阵(感谢 PETSc),以解决通常需要高精度的问题(例如,结果收敛到 7/8 位)

通过并行 LU 分解求解得到的线性系统 Ax=b。我的目标是解决大型 3D 问题,因此矩阵的领先维度可以达到几千万。

该矩阵包含由有限差分法的权重乘以所求解的不同物理方程的系数和度量项得到的元素。

如果一个矩阵条目的绝对值低于双精度机器精度,我将其丢弃并将其切为零。您是否认为这是一种理智的方法,或者至少是毫无意义的?一个原因是我们希望节省所有可能的兆字节内存。但有待商榷的是

  • “非常小的”条目可能会污染 LU 反演过程并使其不稳定,同时增加填充。

  • 如果在该过程中使用接近机器精度的矩阵条目,我会假设涉及这些条目的任何算术运算的结果都可以被认为是“不可靠的”?如果是,我不明白为什么要保留它们。

我知道机器精度是一个与最小可表示正数不同的概念。因此,我的推理可能在概念上是错误的,并且希望得到您的意见或更正。谢谢!

0 投票
1 回答
544 浏览

python - 如何在 Python 中获取半球的坐标

目前,我有一些 Python 代码来获取球体表面上的等距点。现在,我想编辑此代码以获得半球表面上的等距点。我假设我需要更改一些简单的参数,但我仍然是 Python 新手。

我的代码:

谢谢您的帮助!

0 投票
1 回答
69 浏览

r - 我需要帮助映射 R 编码

这是我绘制 RR 的 R 代码:

但是,有一个县只显示为空白白色(尽管它在其他县中具有最高的价值)。代码有问题吗?我检查了实际值,它是一个有效的数值。

0 投票
0 回答
667 浏览

r - 尝试在 integerOneIndex 中选择少于一个元素

我正在尝试使用 R 中的 mdlp 包来离散化我作为示例创建的连续数据。

但我收到以下错误

谁能告诉我有什么问题?为什么一个包不能处理这么短的序列?