问题标签 [categorical-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
7446 浏览

python - Pandas 数据框中的分类变量?

我正在研究 Wes 的 Python For Data Analysis,我遇到了一个书中没有解决的奇怪问题。

在下面的代码中,基于他的书的第 199 页,我创建了一个数据框,然后使用它pd.cut()来创建cat_obj. 根据书,cat_obj

“一个特殊的 Categorical 对象。您可以将其视为指示 bin 名称的字符串数组;在内部它包含指示不同类别名称的级别数组以及标签属性中年龄数据的标签”

惊人的!但是,如果我使用完全相同的pd.cut()代码(在下面的 [5] 中)创建数据框的新列(称为df['cat']),则该列不会被视为特殊的分类变量,而只是作为常规的 pandas 系列。

那么,如何在数据框中创建一个被视为分类变量的列?

0 投票
1 回答
16208 浏览

r - Tukey HSD 用于混合连续变量和分类变量,错误:“无因素”

我正在尝试对死亡率数据进行 Tukey 测试,我想测试死亡率是否受铜量(在单向方差分析中)以及铜和温度的组合(在双向方差分析中)的影响. 这些是我的公式:

方差分析没有问题,但对于 Tukey 的,我收到以下错误消息:

我在其他帖子上读到应该在某个地方存在一个因素,但我所有的数据都是数字!我很困惑,不知道下一步该怎么做。

在此先感谢您的帮助!

伦迪尔

0 投票
1 回答
216 浏览

matlab - 在 Matlab 中使用多个指标进行聚类

我有一个数据集,其中包含每一行的分类和数字特征。我想为每个特征(列)选择不同的相似度指标,并对数据进行层次聚类。有没有办法在 Matlab 中做到这一点?

0 投票
1 回答
818 浏览

image - 如何为带有方形图例符号的图像创建分类图例?

我有 5 个不同的值,我想创建一个图例?这些是连续数据,我需要彩色小方块! 如何在matlab的imagesc图中添加图例类似这样的东西,但用正方形,我尝试用“矩形”替换“线”,但这显然不是诀窍!

谢谢

0 投票
2 回答
159 浏览

gnuplot - 是否可以将 xticlabels 与 splot 结合使用?

我有如下数据:

我想做一个 3D 绘图,但我需要显示类别(或标签):

这给了我一个错误:

0 投票
2 回答
9051 浏览

r - 组合数据框列中的因子水平

我有一个数据框data,其中有一列名为“Project License”,它代表一个分类变量,因此,在 R 术语中,是一个factor。我正在尝试创建一个新列,其中根据我的分类将开源软件许可证组合成更大的类别。但是,当我尝试组合(合并)该因子的级别时,我最终会得到一个列,其中所有级别都丢失或未更改,或者出现错误消息,例如以下消息:

因子错误(数据[[“项目许可证”]],级别 = 分类,标签 = c(“高度限制”,:无效的“标签”;长度 4 应为 1 或 6

这是我用于此功能的代码(从函数中提取):

我还尝试了一些其他方法(包括“R Inferno”中第 8.2.5 节中描述的方法),但到目前为止还没有成功。

我做错了什么以及如何解决这个问题?谢谢!

更新(数据):

更新 2(数据):

0 投票
1 回答
26808 浏览

r - [R] 中的 One-Hot 编码 | 分类到虚拟变量

我需要创建一个新的数据框nDF,它将所有分类变量二值化,同时将所有其他变量保留在数据框DF中。例如,我有以下特征变量:RACE(4 种类型)和 AGE,以及一个名为 CLASS 的输出变量。

东风 =

我想将其转换为带有五 (5) 个变量或四 (4) 个变量的 nDF:

我熟悉变量DF $RACE 的处理对比。但是,如果我实施

我得到的仍然是三个变量的DF,但变量DF $RACE 具有“对比度”属性。

我最终想要的是一个新的数据框nDF,如上图所示,但是如果一个人有大约 50 个特征变量,其中超过五 (5) 个是分类变量,那么评估它可能会非常乏味。

0 投票
1 回答
558 浏览

sas - sas折叠分类变量聚类分析

我在 SAS 提供的逻辑回归建模课程中遇到了以下代码:

我需要明白两件事:

1.) 一旦运行此数据步骤,就会创建一个标题为“i”的列。这意味着什么以及为什么存在。删除“i”本质上是删除它,但如果我不使用删除选项,该列将保留在数据集中

2.) 此执行步骤将所有缺失值替换为 1,其余为 0。当执行步骤中没有明确指定需要做什么时,这是如何发生的。在我看来,“做 i=1 到暗淡(mi);mi{i}=(x{i}=.);” 只要在 x(i) 中找到点,就应该简单地将点放在 mi(i) 中。

第2部分:

在折叠分类变量时,使用了以下代码:

n = 1 在做什么?还有,我们为什么要创建 chisquare=_pchi*rsquared。pchi已经是卡方了,那么将它与 R 方相乘有什么意义呢?

谢谢

PS代码来自SAS学习课程之一。希望我可以在这里分享它以进行讨论/学习。

0 投票
2 回答
1120 浏览

r - 使用包“psych”进行因子分析时未发现对象“w”错误

这些页面上有很多关于因子分析的问题。我浏览了它们,但似乎没有什么相似之处,所以希望有人能提供帮助。

我正在对一些调查问题进行因子分析,我预计会出现一些潜在的结构。我正在运行主轴或minres遇到相同的问题,如下所述。

我的数据集包含许多离散变量和编码为 的合理数量的缺失变量NA,但即使在删除所有NA问题后仍然存在:

第一个使用已弃用的版本并给我一个警告,但它有效。第二个给我以下错误:

我的数据中没有对象w,但我并不真正理解这个对象首先是什么意思。

跑步traceback()给了我:

对我不是很有启发。对此有何建议w

0 投票
0 回答
169 浏览

r - 如何获得马赛克和马赛克图的残差

我有以下马赛克图。

阴影显示了st.residuals。如何提取这些值?它们是什么样的残差?正在安装什么样的模型?

非常感谢