问题标签 [recode]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在 R 中折叠/重新编码变量
我只是在介绍 R 课程,所以这可能是非常基础的。
我正在使用 Outlook on Life 数据集并对收入感兴趣。受访者必须选择以下 19 个选项之一:
我想将其折叠并简化为以下内容,以使情节更易于理解:
- 在贫困线以下(0 - 24,999 美元),
- 工人阶级(25,000 - 34,999 美元),
- 中下阶层(35,000 - 60,000 美元),
- 中产阶级(60,000 - 100,000 美元),
- 中上阶层(100,000 - 150,000 美元),
- 前 5%(150,000 美元以上)。
我将如何重新编码?
谢谢!
r - R - 比赛重新编码建议
我正在努力做一些看似简单的事情。
所以我有一个代码列表及其重新编码。
然后我有一个需要重新编码的向量,名为ttest
.
我需要的是简单地从codesTv
需要重新编码的值中重新编码。
但我发现这样做的唯一方法是这个繁琐的代码:
有人会有更简单的想法吗?
数据
r - 在R中将连续重新编码为连续变量(没有拆分功能)
我正在尝试重新编码一组使用 split 函数或 ifelse 函数无法轻松完成的数据。我将如何重新编码以下数据?
1 --> 1
2 --> 0
3 --> 0
4 --> 1
5 --> 1
7 --> 0
8 --> 1
感谢您的时间!
loops - 使用 spss 语法生成在分层数据中的行之间移动信息的变量
我想知道您是否可以帮助我解决spss语法中的以下问题。我的数据集具有嵌套结构。
数据嵌套在公司中,然后每个公司有 1 或 2 个老板,但在这种情况下,我只关心老板 1。在前一个阶段,老板对工人(不是全部)进行评分。现在,工人的 ID 和等级在每个工人的行上。
我想移动在工人评估期间获得的信息,并为老板的行/行上的每个(工人 ID 和等级)创建新的变量集。
我想在新变量中将工人的 id 和等级移动到老板所在的行,而不会丢失 workerID 和工人等级上的现有变量。
基本上,我需要将信息分别反馈到新变量和每个公司的老板 EQ 1 行。
我不知道该怎么做。我假设我需要一个循环来为每个具有有效等级的工人 ID 创建新变量,然后将来自工人行的信息转发给老板新生成的变量。任何建议都非常欢迎:-)
r - 在 R 中跨大数据框使用重新编码来查找/替换
我希望使用来自另一个数据帧的字符在大型数据帧中执行“查找/替换”因素。
用一个简单的例子来解释,我有以下数据框(df):
并想用一个名称替换每个字母,该名称源自以下数据框(id):
以(new.df)结束:
我知道有许多简单的选项会涉及写出所有替换选项(即 A="ADAM"),但我需要替换 1000 个因子,所以这不是一个选项。
我不知道从哪里开始!我尝试car::recode
使用这个重新编码网站,但它只替换为向量。
loops - SPSS语法:在嵌套循环中重新编码
我希望你能帮助我解决我在嵌套循环中重新编码的问题(SPSS 语法)。:)
在我的 SPSS 数据库中,我得到了不同药物的血液水平测量值(20 周内每周 3 次)。我想为每种物质创建箱线图,使用重新编码为每种物质生成一个新变量。
以下过程描述了一种物质的过程。我可以抽象出其余的具有一种物质的解决方案。
因此,可以通过 GUI 进行单击,这对于如此多的测量来说非常累人——而且容易出错——所以我想用 SPSS 语法来做到这一点。
提醒一下:每周 3 次测量 (1-3) 超过 20 周 (0-19);
第一周第一次测量的 RECODE 如下所示:
如果我想用 Python 或 PHP 实现它,它看起来像这样(伪代码):
我的基本想法是:嵌套循环并在内循环上执行重新编码。由于 $i 和 $j 将是整数,因此我必须对字符串进行强制转换,然后检查条件:(伪代码)
我对 SPSS 语法不是很熟悉,但这将是我的基本想法,它是如何工作的。我需要的是我的 PHP/Pythonish 伪代码的实际工作语法代码。:-)
r - 重估多列的属性
我有一个如下数据集。
右三列的属性重新编码如下:
使用plyr
包(通过使用revalue
函数),我可以进行如下更改。
我有一个包含 100 万行的数据集,其中一些变量有 200 多个类别。所以我上面的代码不方便。我想attribute name
通过阅读dat2
.
stata - 跟踪面板标识符名称随时间变化
我有一个面板标识符,它是以字母数字代码存储的公司名称,我想跟踪整个面板的名称更改。例如,公司 A 在 2001 年 5 月 25 日更名为 B。然后公司 B 在 2003 年 5 月 25 日更名为 C。然后公司 C 在 2005 年 5 月 25 日更名为 D。在这个例子中,公司 D、E、和 G 没有重命名。
我想要一个“过渡矩阵”,以便我可以查看公司 A 是否在以后以新名称参与某些交易。例如,在测试数据的第一行中,公司 A 和 G 参与了 2001 年 8 月 12 日宣布的交易。AA
变量是在很久以前确定的,所以当 2001 年 8 月 12 日左右滚动时,AA
新的公司名称为 B(2001 年 5 月 25 日更改)。在第二行的测试数据中,B 和 H 参与的交易也是在 2001 年 8 月 12 日公布的。但AA
由于没有时间再次更改,所以公司名称仍然是 B。
下面的代码跟踪了这些名称更改,但我怀疑这种方法过于机械化,并且对于我尚未考虑的场景不健壮。
是否有我应该遵循的更合乎逻辑的方法或处理这种重新编码的命令?
r - 如何跨数据帧中的向量将数值重新编码为 NA 值
我有一个包含几个数字变量的数据框。我编写了一个排序算法,通过比较包含我感兴趣的数值的列中的值来对行进行排序。
这些值是数字格式的 YYYYMMDD。但是,某些条目具有 0(零)作为它真正应该是 NA 的值。这意味着可以在例如 20001224 和 0 之间进行比较,即使它没有意义,因为 0 是不适用的值。
我可以使用 strptime 将值转换为日期,从而摆脱非日期。但是,为了了解如何将数据帧的几列重新编码为 NA 值,我想将其作为问题发布在这里。
必须有一种简单的方法(使用其中一个应用函数)逐列将所有 0(零)重新编码为 NA。
这是我的数据摘录的 dput: