问题标签 [dummy-variable]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - R:在不创建新变量的情况下测试因子的每个级别
假设我有一个带有二进制分组变量和一个因子的数据框。这种分组变量的一个示例可以指定分配给实验的处理和控制条件。在下面,b是分组变量,而a是任意因子变量:
我想完成两个样本的 t 检验来评估以下内容:
- 对于a 的每个水平,在b中指定的组之间采用该水平的平均倾向是否存在差异。
我使用dummies包为因子的每个级别创建单独的虚拟变量,然后手动对结果变量执行 t 检验:
我正在寻求以下帮助:
- 有没有办法在不通过 dummy.data.frame() 创建大量虚拟变量的情况下执行此操作?
- 如果在不创建大量假人的情况下没有更快的方法来做到这一点,是否有更快的方法来完成跨多个列的 t 检验?
笔记
这类似于但不同于R - How to perform the same operation on multiple variables并且几乎与此问题Apply t-test on many columns in a dataframe split by factor但该问题的解决方案不再有效。
r - dummyVars 在输出中产生 NA 值
我之前使用过包中的dummyVars
函数来Caret
使用缺失值的字符/因子制作虚拟变量,(NA)
并且它成功地工作。
然而,这一次,我得到的输出包括NA
值。默认情况下,它NA
也将其视为单独的条目并为其创建一个虚拟变量。我错过了什么吗?更担心,因为它上次与NA
价值观一起工作。
使用以下代码:
输出文件,即char_data_raw_train_dum
包含NA
s。请帮忙。
r - R:为以另一个变量为条件的一个变量的值创建虚拟变量
原始问题
我想在数据框中为该数据框中的每个 x 值添加一系列虚拟变量,但如果另一个变量为 NA,则包含 NA。例如,假设我有以下数据框:
我正在寻找生产:
- var1 使得: z$var1 == 1 如果 x == 1,否则如果 y == NA,z$var1 == NA,否则 z$var1 == 0。
- var2 使得: z$var2 == 1 如果 x == 2,否则如果 y == NA,z$var2 == NA,否则 z$var2 == 0。
- var3 等
我似乎无法弄清楚如何对其进行矢量化。我正在寻找一种可用于大量 x 值的解决方案。
更新
我想遍历 x 的每个索引时有些困惑。我不是在寻找这个,而是寻找一个为 x 的每个唯一值创建一个变量的解决方案。将以下数据作为输入时:
我正在寻找 z$var1, z$var2, z$var3, z$var9 其中 z$var1 <- c(1, 1, NA, 0, NA) 和 z$var2 <- c(NA, 0, 1 , 0, 不适用)。原始解决方案产生 z$var1 <- z$var2 <- c(1,1,NA,0,NA)。
r - splitstackshape pkg - concat.split.expanded 通过强制错误返回 NA
我正在按照此处的说明从字符串变量中的虚拟变量尝试将一列字符串(由空格分隔的单词)转换为虚拟变量(0-1 表示该行中的字符串中未使用/使用的单词)使用concat.split.expanded 但得到一堆以下错误:
前面有一个
我很确定要转换的列中没有任何 NA,更不用说那么多了。不知道如何解决这个问题。谢谢!
我一直在运行的命令会产生问题:
产生有或没有填充的问题=
stata - 因子和虚拟变量的不同边际效应
有人可以解释为什么我对以下命令得到不同的边际,即离散的效果(但系数相同)。我试图创建一个数据集来复制这一发现。
为什么两种情况下的边际效应不同?
r - polycor 包 - 优化中的 hetcor 错误
我正在尝试使用 polycor 包中的 hector 函数和我在此处找到的说明对一组 80 个二分变量(1440 个案例)进行因子分析:http ://researchsupport.unt.edu/class/Jon/Benchmarks /BinaryFA_L_JDS_Sep2014.pdf
可悲的是,在我从其余数据集中只选择感兴趣的变量并对它们进行因子分析后,我似乎一直收到以下错误和警告
这是命令/当我点击上述 PDF 中描述的步骤时:
不知道这意味着什么或如何进行......您的想法表示赞赏。谢谢!
r - 加快此循环以使用 data.table 创建虚拟列并在 R 中设置
我有一个数据表,我想为每个唯一的日期创建一个新列,然后在日期与列名匹配的每一行中分配一个 1
我已经使用 for 循环完成了这项工作,但我想知道是否有任何方法可以使用 data.table 和 set 对其进行优化?
这是一个例子
我的表是 298k 行,虽然执行时间不长(如下),但它是长脚本的一部分,而且我有很多低效的循环,所以我试图降低整体运行时间。
运行时间:
提前致谢。
r - 在 R 中创建虚拟变量
我对 R 很陌生,我正在尝试创建一些新变量。基本上,我的数据集有一个带有母亲 ID 变量的个体(即,如果两个个体有相同的母亲,这个变量的值将是相同的)。
开始时保持简单,假设我想创建一个虚拟变量,如果两个人是兄弟姐妹,则该变量 = 1。我尝试使用:
但是对于其中一个兄弟姐妹,我得到的向量只有 = 1。我应该做什么?
谢谢
python-2.7 - 在 Pandas 中执行 get_dummies 时保留其他变量
我有一个带有 ID 变量和另一个分类变量的 DataFrame。我想用 get_dummies 从分类变量中创建虚拟变量。
但是,这会使 ID 变量消失。我稍后需要这个 ID 变量来合并到其他数据集。
有没有办法保留其他变量。在 get_dummies 的文档中,我找不到任何东西。谢谢!
r - 构建具有多种条件的虚拟变量 (R)
我的数据集看起来像这样
(ATTXX 是一个虚拟变量。表示 XX 年的学校出勤率,GRADEXX 表示学校成绩)
我正在尝试创建一个虚拟变量,如果一个人在 19/20 岁时上学,则该变量 = 1。例如,如果 YOB = 1988 且 ATT98 = 1 则新变量 = 1 等等。我一直在尝试在 dplyr 中使用 mutate 但我是 R 新手(通常是编码!)所以除了错误之外很难得到任何东西我写的任何代码。
任何帮助将不胜感激,谢谢。
编辑:
所以,我刚刚注意到出了点问题,我稍微更改了您的代码,只是为了在长格式数据表中添加另一列。这是我最后所做的:
所以它看起来像例如
即,每当 ATT 变量取 0 以外的值时,虚拟 = 1,即使它们不是 19/20 岁。有什么想法可能会出错吗?