问题标签 [categorical-data]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
780 浏览

r - 为广义线性回归准备数据

我想在 Rglm中为数据集执行Titanic。我执行了以下步骤来准备数据并运行 glm:

我收到错误消息:

谁能帮我解决这个问题?

0 投票
2 回答
3983 浏览

r - 简化由 R 中的分类变量分层的汇总统计输出

正在使用的程序

我正在使用统计程序R来分析一些数据,并有一个可能相当简单的问题。

问题的背景

我有一个充满数值的变量,称为study_data$LN_reviewed. 我还有一个名为的变量study_data$Gender,它具有研究中每个主题的性别。我想计算一些按性别分层的简单汇总统计数据。使用下面显示的代码很容易做到这一点:

我的问题

如何让R以更易于理解的格式显示此信息?具体来说,我想要一个表,它有两行,名为“FEMALE”和“MALE”,六列,名为“Min.”、“1st Qu.”、“Median”、“Mean”、“3rd Qu”。 , 和“Max.”,如下图所示。

我花了一些时间试图自己解决它,但一直找不到解决方案。

0 投票
2 回答
1089 浏览

r - 虚拟编码参考组

在使用分类变量在 R 中使用 lm 函数进行建模时,有没有办法明确指定将哪个组作为虚拟编码的参考组?

0 投票
1 回答
1382 浏览

r - 将指标变量设置为等于 1 或 0

如果 gpa 大于 3,我必须将 HIGPA 设置为 1,如果它小于 3,则 HIGPA 必须等于 0。我正在使用 R。

gpa 已经是数据中的一个变量。HIGPA 不是。到目前为止,我已经让 HIGPA 成为 gpa 的一个因素。

在这一步之后,我迷路了。

感谢您的帮助!

0 投票
1 回答
4609 浏览

r - 如何确保分区具有来自因子的每个级别的代表性观察?

我编写了一个小函数来将我的数据集划分为训练集和测试集。但是,我在处理因子变量时遇到了麻烦。在我的代码的模型验证阶段,如果模型建立在一个没有来自每个因子级别的表示的数据集上,我会收到一个错误。如何修复此 partition() 函数以包含来自因子变量每个级别的至少一个观察值?

编辑-使用'caret'包和createDataPartition()的新功能:

0 投票
1 回答
2046 浏览

r - 马赛克图(vcd包)-图例位置

我正在尝试使用vcd包制作马赛克图,但我很难理解如何配置图的某些设置。

A 变量的不同级别的图例位于图的顶部,这不是很有帮助,因为变量 B 的类别“a”没有所有这些级别。我希望图例与图例中所有级别的类别一起位于底部。

0 投票
1 回答
20755 浏览

r - 为什么“重新调整”不适用于我的逻辑回归?

我正在尝试使用指令relevel将参考类别重新定义为最后一个类别。

起初,我收到一个错误:

我使用 Epicalc 包的des指令来检查 DPROS 是数字还是因子:

我使用as.factor使 DPROS 成为一个因素。

但我仍然遇到同样的错误:

使用des它仍然说 DPROS 是数字,但is.factor(DPROS)返回 TRUE。

我究竟做错了什么?

0 投票
2 回答
738 浏览

categorical-data - 在Stata中对分类变量进行排序和合并

我正在Stata中将两个数据集合并在一起,并提出了一个潜在的问题。

我计划在sort两个数据集共有的几个分类变量上以完全相同的方式对每个数据集进行处理。然而,几个分类变量在一个数据集中存在的类别比另一个数据集中的类别多。我已经足够小心以确保两个数据集的编码匹配(例如,红色在数据集 A 和 B 中都编码为 1,但数据集 A 只有红色、绿色和蓝色,而数据集 B 有红色、绿色、蓝色和黄色)。

如果我对sort每个数据集以相同的方式和generate一个id变量 ( gen id = _n)merge进行处理,我会遇到任何问题吗?

0 投票
2 回答
179 浏览

r - 基于多个条件的 R 中的新列

所以我试图从 5 个不同的列中制作 3 个主列。我正在研究 2 种不同的医学测试(TestA 和 TestB)。我查看了其他一些关于制作新行的答案,但在有多个条件和使用分类值时找不到答案。

目前我有以下列: TestA2009 TestA2010 TestA2011 TestB2010 TestB2011

我最终想要的三列是: 1. 参加过TestA(任何年份)但从未参加过TestB 的人 2. 参加过TestB(任何年份)但从未参加过TestA 的人 3. 参加过TestA(任何年份)的人)和TestB(任何年份)

TestA 的值包括 NA、Positive、Negative、Not Reported 等。TestB 的
值包括 NA、Reactive、Unsatisfactory 等。

NA 表示他们没有进行测试。

希望这个问题很清楚。非常感谢 - 我是 R 的新手,可以使用我能得到的所有帮助!

编辑:感谢大家的建议。我自己也尝试过这种方法。我将所有“NA”切换为“0”,将所有其他值切换为“1”。是否有意义?

0 投票
1 回答
1014 浏览

r - 如何将预定义的偏移量拟合到 R 中包含分类变量的模型

使用以下数据:

http://pastebin.com/4wiFrsNg

我想知道如何将预定义的偏移量拟合到另一个模型的原始关系,即如何拟合模型 A 的估计值,因此:

因此对 B 建模:

其中解释变量是我的数据集中的变量“分类”或变量“连续”。我得到了一个与 CV 上类似问题相关的有用答案:

https://stats.stackexchange.com/questions/62584/how-to-fit-a-specific-model-to-some-data

这里的解释变量是“连续的”。但是,我有一些额外的问题需要回答,我认为这些问题可能更适合 SO。如果不是这种情况,请告诉我,我将删除此问题:)

具体来说,我在上面的链接中被告知,为了在我的数据集中为连续解释变量拟合预定义的斜率,我应该这样做:

其中坡度是取自模型 A 的预定义坡度。效果很好。

现在我想知道,当 x 是具有两个级别的分类变量,然后当 x 是具有二次项即 x+x^2 的连续变量时,我该怎么做?

对于我正在尝试的二次项:

其中 Slope 是 Continuous 项的固定估计值,Slope2 是二次项的固定估计值。

但是,我不确定如何使它适用于分类变量。当我尝试将偏移量拟合为:

同样,斜率是从模型 A 中获取的固定估计的斜率值,我得到一个错误:

如果有人对如何为分类变量创建偏移量有意见,将不胜感激:)