“categorical-data”的相关标签问题

0 投票

3 回答

22292 浏览

r - Linear model (lm) when dependent variable is a factor/categorical variable?

I want to do linear regression with the lm function. My dependent variable is a factor called AccountStatus:

As independent variable I have several numeric variables: Loan to value, debt to income and interest rate.

Is it possible to do a linear regression with these variables? I looked on the internet and found something about dummy's, but those were all for the independent variable.

This did not work:

r lm categorical-data r-factor

2014-03-05T09:00:50.253

0 投票

1 回答

3678 浏览

r - R：将 R 因子扩展到每个因子级别的虚拟列

我在 R 中有一个相当大的数据框，有两列。我试图从Code列（factor类型为 858 级）中找出虚拟变量。问题是当我尝试这样做时，R Studio 总是崩溃。

该User列不是唯一的，这意味着可以有几行具有相同的User. 不管最终行数保持不变还是将相同的行User合并到一行中，该行有几列非空且计数为Codes。

我发现了一些适用于较小数据集的解决方案，但不适用于我的。

尝试使用model.matrix，但 R Studio 只是崩溃

在这里找到自动将 R 因子扩展为每个因子级别的 1/0 指标变量的集合
尝试for使用循环ifelse，但代码运行了 4 小时，然后我注意到 R Studio 崩溃了。

在这里找到从分类变量创建新的虚拟变量列

如果您能向我推荐一些快速且适用于此类数据的方法，那就太好了。

谢谢！

r bigdata categorical-data dummy-data model.matrix

2014-03-09T18:46:14.450

0 投票

3 回答

10296 浏览

python - 使用“statsmodels”指定将哪个类别视为基础

了解当我将模型中的类别变量传递给 astatsmodels fit时，将自动为类别生成虚拟变量。例如，如果我有一个值为“IndianOcean”、“Thailand”、“China”和“Mars”的变量“Location”，我将在表单模型中获得变量

其中一个值未表示。默认情况下，排除变量似乎是最不常见的变量。有没有办法指定（理想情况下在模型规范中）哪个值被视为“基础值”并被排除在外？

python linear-regression statsmodels categorical-data

2014-03-16T00:28:11.957

0 投票

2 回答

390 浏览

categorical-data - 指定由 patsy/statsmodels 'C' 生成的类别的名称形式

默认情况下，Patsy'sC似乎生成具有表单名称的类别

至少在提供给的公式中使用时statsmodels old。有没有办法指定C生成不太详细的类别名称，例如，形式

甚至简单地

categorical-data python

raxacoricofallapatorius

2014-03-16T13:09:22.423

0 投票

1 回答

49 浏览

r - [R]：TRUE 未附加到分类变量。R是否将其视为一个？

laglaw只取 0 或 1。我的后缀为 TRUE 的分类变量是使用语法 YX$jan <- seatbelt$month[t]==1 创建的，如果我用 YX$jan 调用它们，它们会返回 TRUE 或 FALSE 的数据帧。这些是否与laglaw包含 0 和 1 的分类变量不同？

如果laglaw不被视为分类变量 1) 它以这种形式提供的信息与分类变量有何不同？2）我怎样才能使它分类？

在此处输入图像描述

r categorical-data

2014-03-21T00:54:41.467

0 投票

1 回答

184 浏览

categorical-data - 将数值变量转换为分类和分组

我有一个患者年龄的变量。我180 values的年龄从 18 岁到 92岁不等。我想将此变量用作具有三个级别的因素：

a: 18-57 岁 b: 58-68 岁 c: 69-92 岁

我输入：

但我得到的回应是：

str(AGE.factor) 因子 w/ 74 个级别 "(18,19]","(19,20]",..: 44 44 44 44 44 44 50 50 50 28 ...

我们做到了？我只想要年龄分组的变量的 3 个级别。

谢谢

categorical-data

2014-04-03T23:30:52.937

0 投票

0 回答

807 浏览

r - 使用分类数据在 R 中进行 3D 绘图

因此，我对 R 中的整个 3D 绘图相当陌生，并且在最后一天阅读了这里和其他网站/书籍中的各种文章和帖子。我不得不承认，我还是迷路了。因此，人们可以给我的任何帮助/建议将不胜感激！

好的，这是我的问题（带有示例数据）。我连续 12 年（2001-2012 年）对 3 个位置 (AC) 进行了抽样测量，其中有很多零。所以我在表/矩阵/数据框中有这些数据：

我想要的类似于地形图，x 轴是位置，z 轴是年份，y 轴是我正在测量的东西的值。我可能会对使用条形图持开放态度，但理想情况下，最好使用线框（）之类的东西。我一直在搞各种功能和包，但我无法弄清楚为什么我正在做的事情不起作用。

非常感谢您的帮助！我完全知道我可能只是有点白痴而没有得到它，所以谢谢你对我的包容！

干杯!

编辑：

所以我把它改成了“长读”。x 值不能是非数字的，所以我将它们更改为 x2（如下所示）。

然后我使用了 wireframe() 函数：

现在，我无法弄清楚并且一直在摆弄的东西是着色。我知道 drape() 子函数允许我为晶格提供颜色变化的渐变，较高的值显示与较低的值不同的颜色。但是，我似乎无法让它工作。它确实给了我一个颜色渐变，但最高值（这里是 0.83）应该是绿松石色（默认颜色渐变是粉红色-绿松石 - 稍后会尝试更改它），实际上是对应的颜色 ~ 0.3 值。没有附加错误消息或警告消息，我不知道为什么会这样......有什么想法吗？

再次感谢！:)

r 3d plot categorical-data

2014-04-04T14:43:42.590

0 投票

1 回答

8711 浏览

r - R中的分裂因子

我有一个具有 , , 等形式的值的因子Single (w/children)，Married (no children)并且Single (no children)想将它们分成两个因子，一个用于婚姻状况的多值因子，一个用于儿童的二值因子。

我如何在 R 中做到这一点？

r categorical-data

raxacoricofallapatorius

2014-04-15T23:10:01.853

0 投票

3 回答

35987 浏览

r - 将因子转换为 R 中的数值

我在 R 中有一些因素，这些因素是形式$100,001 - $150,000为、over $150,000、$25,000等的工资范围，并且想将它们转换为数值（例如，将因素转换$100,001 - $150,000为整数 125000）。

同样，我有我想分配数字的教育类别，例如High School Diploma、Current Undergraduate、等（例如，给出比更高的值）。PhDPhDHigh School Diploma

给定包含这些值的数据框，我该怎么做？

r categorical-data

raxacoricofallapatorius

2014-04-15T23:00:49.787

0 投票

5 回答

75633 浏览

r - 为数据框中的因子添加额外级别

我有一个带有数字和有序因子列的数据框。我有很多 NA 值，因此没有为它们分配级别。我将 NA 更改为“No Answer”，但因子列的级别不包含该级别，所以这是我开始的方式，但我不知道如何以优雅的方式完成它：

有没有办法直接将新级别应用于因子列，例如，如下所示：

当然，这不能正常工作。

我希望保留级别的顺序并将“No Answer”级别添加到最后一位。

r dataframe categorical-data

2014-04-26T21:40:19.053

问题标签 [categorical-data]

Reference