问题标签 [categorical-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - Linear model (lm) when dependent variable is a factor/categorical variable?
I want to do linear regression with the lm
function. My dependent variable is a factor called AccountStatus
:
As independent variable I have several numeric variables: Loan to value
, debt to income
and interest rate
.
Is it possible to do a linear regression with these variables? I looked on the internet and found something about dummy's, but those were all for the independent variable.
This did not work:
r - R:将 R 因子扩展到每个因子级别的虚拟列
我在 R 中有一个相当大的数据框,有两列。我试图从Code
列(factor
类型为 858 级)中找出虚拟变量。问题是当我尝试这样做时,R Studio 总是崩溃。
该User
列不是唯一的,这意味着可以有几行具有相同的User
. 不管最终行数保持不变还是将相同的行User
合并到一行中,该行有几列非空且计数为Code
s。
我发现了一些适用于较小数据集的解决方案,但不适用于我的。
尝试使用
model.matrix
,但 R Studio 只是崩溃尝试
for
使用 循环ifelse
,但代码运行了 4 小时,然后我注意到 R Studio 崩溃了。在这里找到从分类变量创建新的虚拟变量列
如果您能向我推荐一些快速且适用于此类数据的方法,那就太好了。
谢谢!
python - 使用“statsmodels”指定将哪个类别视为基础
了解当我将模型中的类别变量传递给 astatsmodels
fit
时,将自动为类别生成虚拟变量。例如,如果我有一个值为“IndianOcean”、“Thailand”、“China”和“Mars”的变量“Location”,我将在表单模型中获得变量
其中一个值未表示。默认情况下,排除变量似乎是最不常见的变量。有没有办法指定(理想情况下在模型规范中)哪个值被视为“基础值”并被排除在外?
categorical-data - 指定由 patsy/statsmodels 'C' 生成的类别的名称形式
默认情况下,Patsy'sC
似乎生成具有表单名称的类别
至少在提供给 的公式中使用时statsmodels
old
。有没有办法指定C
生成不太详细的类别名称,例如,形式
甚至简单地
r - [R]:TRUE 未附加到分类变量。R是否将其视为一个?
laglaw
只取 0 或 1。我的后缀为 TRUE 的分类变量是使用语法 YX$jan <- seatbelt$month[t]==1 创建的,如果我用 YX$jan 调用它们,它们会返回 TRUE 或 FALSE 的数据帧。这些是否与laglaw
包含 0 和 1 的分类变量不同?
如果laglaw
不被视为分类变量 1) 它以这种形式提供的信息与分类变量有何不同?2)我怎样才能使它分类?
categorical-data - 将数值变量转换为分类和分组
我有一个患者年龄的变量。我180 values
的年龄从 18 岁到 92岁不等。我想将此变量用作具有三个级别的因素:
a: 18-57 岁 b: 58-68 岁 c: 69-92 岁
我输入:
但我得到的回应是:
str(AGE.factor) 因子 w/ 74 个级别 "(18,19]","(19,20]",..: 44 44 44 44 44 44 50 50 50 28 ...
我们做到了?我只想要年龄分组的变量的 3 个级别。
谢谢
r - 使用分类数据在 R 中进行 3D 绘图
因此,我对 R 中的整个 3D 绘图相当陌生,并且在最后一天阅读了这里和其他网站/书籍中的各种文章和帖子。我不得不承认,我还是迷路了。因此,人们可以给我的任何帮助/建议将不胜感激!
好的,这是我的问题(带有示例数据)。我连续 12 年(2001-2012 年)对 3 个位置 (AC) 进行了抽样测量,其中有很多零。所以我在表/矩阵/数据框中有这些数据:
我想要的类似于地形图,x 轴是位置,z 轴是年份,y 轴是我正在测量的东西的值。我可能会对使用条形图持开放态度,但理想情况下,最好使用线框()之类的东西。我一直在搞各种功能和包,但我无法弄清楚为什么我正在做的事情不起作用。
非常感谢您的帮助!我完全知道我可能只是有点白痴而没有得到它,所以谢谢你对我的包容!
干杯!
编辑:
所以我把它改成了“长读”。x 值不能是非数字的,所以我将它们更改为 x2(如下所示)。
然后我使用了 wireframe() 函数:
现在,我无法弄清楚并且一直在摆弄的东西是着色。我知道 drape() 子函数允许我为晶格提供颜色变化的渐变,较高的值显示与较低的值不同的颜色。但是,我似乎无法让它工作。它确实给了我一个颜色渐变,但最高值(这里是 0.83)应该是绿松石色(默认颜色渐变是粉红色-绿松石 - 稍后会尝试更改它),实际上是对应的颜色 ~ 0.3 值。没有附加错误消息或警告消息,我不知道为什么会这样......有什么想法吗?
再次感谢!:)
r - R中的分裂因子
我有一个具有 , , 等形式的值的因子Single (w/children)
,Married (no children)
并且Single (no children)
想将它们分成两个因子,一个用于婚姻状况的多值因子,一个用于儿童的二值因子。
我如何在 R 中做到这一点?
r - 将因子转换为 R 中的数值
我在 R 中有一些因素,这些因素是形式$100,001 - $150,000
为 、over $150,000
、$25,000
等的工资范围,并且想将它们转换为数值(例如,将因素转换$100,001 - $150,000
为整数 125000)。
同样,我有我想分配数字的教育类别,例如High School Diploma
、Current Undergraduate
、等(例如,给出比 更高的值)。PhD
PhD
High School Diploma
给定包含这些值的数据框,我该怎么做?
r - 为数据框中的因子添加额外级别
我有一个带有数字和有序因子列的数据框。我有很多 NA 值,因此没有为它们分配级别。我将 NA 更改为“No Answer”,但因子列的级别不包含该级别,所以这是我开始的方式,但我不知道如何以优雅的方式完成它:
有没有办法直接将新级别应用于因子列,例如,如下所示:
当然,这不能正常工作。
我希望保留级别的顺序并将“No Answer”级别添加到最后一位。