问题标签 [dummy-variable]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R | 中的因子水平默认为 1 和 2 虚拟变量
我正在从 Stata 过渡到 R。在 Stata 中,如果我将因子水平(比如 - 0 和 1)标记为(M 和 F),0 和 1 将保持原样。此外,在包括 Excel 和 SPSS 在内的大多数软件中,虚拟变量线性回归都需要这样做。
但是,我注意到 R 默认因子水平为 1,2 而不是 0,1。我不知道为什么 R 会这样做,尽管内部回归(并且正确地)假设 0 和 1 作为因子变量。我将不胜感激任何帮助。
这是我所做的:
尝试#1:
似乎因子水平现在重置为 1 和 2。我相信 1 和 2s 是对因子水平的引用。但是,我丢失了原始值,即 0 和 1。
尝试2:
同上。我的 0 和 1 现在是 1 和 2。相当令人惊讶。为什么会这样。
Try3 现在,我想看看 1s 和 2s 是否有任何不良影响回归。所以,这就是我所做的:
这是我的数据的样子:
所以,事实证明手段是正确的。在运行回归时,R 确实使用 0 和 1 值作为虚拟变量。
我确实检查了 SO 上的其他线程,但他们大多谈论 R 如何编码因子变量而没有告诉我原因。Stata 和 SPSS 通常要求基本变量为“0”。所以,我想问问这个。
我会很感激任何想法。
r - Excel Dummy Variable for R
I hope this question isn't off topic. I know how to code a dummy variable in R, however, I was wondering if I could create it in excel. Lets say I have 3 colors (red, blue, yellow) list under a color variable. R would import this as a factor with 3 levels.
Now if I wanted to do this in excel could I make 3 new predictors (instead of color they now become red, blue, and yellow) and place a 1 in the red column if it is red and 0 otherwise and so on? Or will R continue to interpret this as 3 individual factors with 2 levels each?
r - 为什么因子的表现优于虚拟变量?
我正在使用gbm.step
R 中的 dismo 包(用于 GBM)来构建增强回归树模型。然而,我最初将分类变量编码为因子 - 我被告知将因子编码为虚拟二进制变量(1 表示存在;0 表示不存在)将使算法更容易执行递归二进制拆分。
然而,今天我为包含因子的数据集(320 次运行)和另一个包含虚拟变量的数据集(另外 320 次运行)运行了一系列学习率、树复杂度和袋子分数的组合。
为了进行一般性细分,我有 4 个分类变量。
1) 第一个分类有 4 个级别 - 分为四个单独的 1/0 组合
2)第二个与(1)相同。
3) 第三个有 3 个级别 - 分为 3 个单独的 1/0 组合。
4) 最后一个分类变量有 2 个级别 - 所以 2 1/0 组合。
在比较所有运行后,在解释的偏差方面,使用因子编码的数据集每次(320 次)都优于二进制虚拟变量 1.5 - 3%。
我想知道为什么,当我期望虚拟变量更好地拟合模型时?是否dismo
在幕后自动创建虚拟变量?
谢谢。
r - 将新变量值绑定到长数据中个人的所有响应
我正在使用长格式的纵向调查,并且我正在尝试创建一个虚拟变量来判断一个人是否在 25 岁之前没有获得大学学位。我的数据看起来像这样:
正如我试图说明的那样,相关年份的调查回复中缺少很多数据点。但很明显,如果受访者在以后的几年中回答“否”,则可以推断他们在 <25 岁时也没有学位。
尝试尽可能通用,我怎样才能创建一个新变量,它取决于一个人的所有变量值,即 ID = 1、2、3 等?
对不起,如果我不清楚!
编辑:
对不起,我的错,数据过去是宽格式,变量表示受访者是否在 1998 年、2000 年、2002 年等拥有大学学位(值表示响应 1 == TRUE,0 == FALSE),CYRB 是实际上是出生年份,为我想要的虚拟变量的预期输出编辑的表格将是:
即,如果受访者在 25 岁以后的任何调查中回答他/她没有大学学位,则虚拟变量取值为 1。
希望这更清楚一点。
r - 使用等级 (R) 处理关系
我正在尝试为孩子是否是第一个出生的虚拟变量,以及一个孩子是否是第二个出生的虚拟变量。我的数据看起来像这样
ID = 儿童 ID,MID = 母亲 ID,CMOB = 出生月份,CYRB = 出生年份。
对于第一个出生的假人,我尝试使用这个:
但是似乎没有办法通过另一个列的等级来打破关系(显然在这种情况下,所需的列是 CMOB),每当我尝试使用“ties.method”参数时,它都会告诉我输入必须是字符向量。
我在这里错过了什么吗?
r - 根据组属性创建虚拟变量
我的数据看起来像这样:
ID = 孩子 ID,CSEX = 孩子性别,MID = 母亲 ID,CMOB = 出生月份和 CYRB = 出生年份,第一个 = 第一个出生假人,第二个 = 第二个出生假人。
如果出生在一个家庭的前两个孩子(即具有相同的 MID)是同性,我正在尝试制作一个取值为 1 的虚拟变量。
我试过了
但很明显,这仍然只检查每个单独 ID 的条件,而不是通过 MID,因此返回一个总是取值 = 0 的虚拟对象。
谢谢
编辑预期输出:
即对于在前两个孩子是同性的家庭中的任何个人,虚拟 SAMESEX = 1
Edit2(我之前展示的只是我做的一个例子,因为真正的数据集调用结构给出了):
和str:
r - 如何从R中的列表快速创建虚拟变量
所以我是使用 R 的新手,但我在完成一项相当简单的任务时遇到了麻烦。我有一个名为“数据”的df,如下所示......
我还有一个名为“Player.Names”的向量,其中包含在 Data$Group 中某个时间点出现的所有唯一名称,就像这样......
我正在努力完成的是在“数据”中创建代表每个唯一名称的新列,如果名称在 Data$Group 中,则包含值 1,如果不在,则包含值 0。所需的输出如下所示...
group-by - SAS:按组内组为变量值编码虚拟变量
我有一个 CASE_ID(xy 和 z)的数据集、每个 CASE_ID 的一组多个日期(包括重复日期)和一个变量 VAR。我想在一个组中按组创建一个虚拟变量 DUMMYVAR,如果 VAR="C" 用于某个特定日期的 CASE_ID x,则 DUMMYVAR=1 用于与该日期对应的 CASE_ID x 的所有观察值。
我相信经典 2XDOW 将是这里的关键,但这是我使用 SAS 的第三周,这里的两个 BY 组很难得到这个。
我在这里引用并尝试编写 Haikuo 代码的变体:
stata - 为在两个组合期间内具有两种条件之一的个人创建虚拟对象
我正在使用Stata。
我从 TUS(即时间使用调查)获得了一个描述性统计数据:全职工人每天花费的总时间(因为这些数据来自卢森堡,全职工作日至少 8 小时)工作人员)。因此,我在 TUS 的子样本上工作,其中只有宣布就业的人。
在这个(子样本)数据集中,每个人有两个观察值,一个在周末,一个在一周内(即,它是一种短面板数据集)。
因为我只对那些全职工作的人感兴趣,所以我想衡量两类人在这两天内的总工作时间:
- 工作日工作时间为 8 小时或以上,周末工作时间为 0 小时(周六和周日)的个人;
- 在工作日和周末工作的个人(例如,服务员、护士、司机等),工作日的工作时间为 8 小时或以上,周末的工作时间为 8 小时或以上。
[问题 1]如何创建一个变量,当个体为 1. 或 2. 时为 1,否则为 0?
[问题 2]一旦我为全职工人创建了虚拟变量,我想创建另一个虚拟变量,对于仅在工作日工作的工人为 1,对于周末工作的工人为 0,我该怎么做那?
[更新] 这里我发布了一部分数据集作为示例(通过datasex获得):
r - 虚拟编码模型矩阵的R算法是什么?
我注意到当使用虚拟编码来拟合我的线性模型时,R 在形成模型矩阵时排除了某些参数。这样做的R算法是什么?