问题标签 [categorical-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
22292 浏览

r - Linear model (lm) when dependent variable is a factor/categorical variable?

I want to do linear regression with the lm function. My dependent variable is a factor called AccountStatus:

As independent variable I have several numeric variables: Loan to value, debt to income and interest rate.

Is it possible to do a linear regression with these variables? I looked on the internet and found something about dummy's, but those were all for the independent variable.

This did not work:

0 投票
1 回答
3678 浏览

r - R:将 R 因子扩展到每个因子级别的虚拟列

我在 R 中有一个相当大的数据框,有两列。我试图从Code列(factor类型为 858 级)中找出虚拟变量。问题是当我尝试这样做时,R Studio 总是崩溃。

User列不是唯一的,这意味着可以有几行具有相同的User. 不管最终行数保持不变还是将相同的行User合并到一行中,该行有几列非空且计数为Codes。

我发现了一些适用于较小数据集的解决方案,但不适用于我的。

如果您能向我推荐一些快速且适用于此类数据的方法,那就太好了。

谢谢!

0 投票
3 回答
10296 浏览

python - 使用“statsmodels”指定将哪个类别视为基础

了解当我将模型中的类别变量传递给 astatsmodels fit时,将自动为类别生成虚拟变量。例如,如果我有一个值为“IndianOcean”、“Thailand”、“China”和“Mars”的变量“Location”,我将在表单模型中获得变量

其中一个值未表示。默认情况下,排除变量似乎是最不常见的变量。有没有办法指定(理想情况下在模型规范中)哪个值被视为“基础值”并被排除在外?

0 投票
2 回答
390 浏览

categorical-data - 指定由 patsy/statsmodels 'C' 生成的类别的名称形式

默认情况下,Patsy'sC似乎生成具有表单名称的类别

至少在提供给 的公式中使用时statsmodels old。有没有办法指定C生成不太详细的类别名称,例如,形式

甚至简单地

0 投票
1 回答
49 浏览

r - [R]:TRUE 未附加到分类变量。R是否将其视为一个?

laglaw只取 0 或 1。我的后缀为 TRUE 的分类变量是使用语法 YX$jan <- seatbelt$month[t]==1 创建的,如果我用 YX$jan 调用它们,它们会返回 TRUE 或 FALSE 的数据帧。这些是否与laglaw包含 0 和 1 的分类变量不同?

如果laglaw不被视为分类变量 1) 它以这种形式提供的信息与分类变量有何不同?2)我怎样才能使它分类?

在此处输入图像描述

0 投票
1 回答
184 浏览

categorical-data - 将数值变量转换为分类和分组

我有一个患者年龄的变量。我180 values的年龄从 18 岁到 92岁不等。我想将此变量用作具有三个级别的因素:

a: 18-57 岁 b: 58-68 岁 c: 69-92 岁

我输入:

但我得到的回应是:

str(AGE.factor) 因子 w/ 74 个级别 "(18,19]","(19,20]",..: 44 44 44 44 44 44 50 50 50 28 ...

我们做到了?我只想要年龄分组的变量的 3 个级别。

谢谢

0 投票
0 回答
807 浏览

r - 使用分类数据在 R 中进行 3D 绘图

因此,我对 R 中的整个 3D 绘图相当陌生,并且在最后一天阅读了这里和其他网站/书籍中的各种文章和帖子。我不得不承认,我还是迷路了。因此,人们可以给我的任何帮助/建议将不胜感激!

好的,这是我的问题(带有示例数据)。我连续 12 年(2001-2012 年)对 3 个位置 (AC) 进行了抽样测量,其中有很多零。所以我在表/矩阵/数据框中有这些数据:

我想要的类似于地形图,x 轴是位置,z 轴是年份,y 轴是我正在测量的东西的值。我可能会对使用条形图持开放态度,但理想情况下,最好使用线框()之类的东西。我一直在搞各种功能和包,但我无法弄清楚为什么我正在做的事情不起作用。

非常感谢您的帮助!我完全知道我可能只是有点白痴而没有得到它,所以谢谢你对我的包容!

干杯!

编辑:

所以我把它改成了“长读”。x 值不能是非数字的,所以我将它们更改为 x2(如下所示)。

然后我使用了 wireframe() 函数:

现在,我无法弄清楚并且一直在摆弄的东西是着色。我知道 drape() 子函数允许我为晶格提供颜色变化的渐变,较高的值显示与较低的值不同的颜色。但是,我似乎无法让它工作。它确实给了我一个颜色渐变,但最高值(这里是 0.83)应该是绿松石色(默认颜色渐变是粉红色-绿松石 - 稍后会尝试更改它),实际上是对应的颜色 ~ 0.3 值。没有附加错误消息或警告消息,我不知道为什么会这样......有什么想法吗?

再次感谢!:)

0 投票
1 回答
8711 浏览

r - R中的分裂因子

我有一个具有 , , 等形式的值的因子Single (w/children)Married (no children)并且Single (no children)想将它们分成两个因子,一个用于婚姻状况的多值因子,一个用于儿童的二值因子。

我如何在 R 中做到这一点?

0 投票
3 回答
35987 浏览

r - 将因子转换为 R 中的数值

我在 R 中有一些因素,这些因素是形式$100,001 - $150,000为 、over $150,000$25,000等的工资范围,并且想将它们转换为数值(例如,将因素转换$100,001 - $150,000为整数 125000)。

同样,我有我想分配数字的教育类别,例如High School DiplomaCurrent Undergraduate、等(例如,给出比 更高的值)。PhDPhDHigh School Diploma

给定包含这些值的数据框,我该怎么做?

0 投票
5 回答
75633 浏览

r - 为数据框中的因子添加额外级别

我有一个带有数字和有序因子列的数据框。我有很多 NA 值,因此没有为它们分配级别。我将 NA 更改为“No Answer”,但因子列的级别不包含该级别,所以这是我开始的方式,但我不知道如何以优雅的方式完成它:

有没有办法直接将新级别应用于因子列,例如,如下所示:

当然,这不能正常工作。

我希望保留级别的顺序并将“No Answer”级别添加到最后一位。