问题标签 [recode]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1575 浏览

r - 如何在 R 中重新编码变量

我正在尝试重新编码 R 数据框中的变量。示例 - 我的数据集中的变量 X 包含 1 和 0。我想创建另一个变量 Y,它将 X 中的 1 和 0 分别重新编码为 Yes 和 No。

我试过这个来创建重新编码的 Y 变量:

然后我这样做是为了将 X 和 Y 排列在一起:

我得到的是这样的:

我期待一个带有 X 和 Y 列的数据框。

问题:

  1. 如何将 X 和 Y 放入数据框中?
  2. 有没有更好的方法来重新编码数据框中的变量?
0 投票
0 回答
99 浏览

r - 重新编码缺少级别的多个变量

我有一个包含许多整数变量列的数据框,每列代表食物频率问卷中的一个特定问题。我想将这些列重新编码为数字变量,表示每月食用的食物份数。mapvalues()inplyr似乎是正确的功能,但我不断收到警告消息,因为并非所有食物都记录了全方位的响应:

设置warn_missing = false不返回警告消息,但我的数据仍然没有被重新编码。

示例代码(nails 是我的数据框,foodnames 是变量名列表):

即使它们不包含从 1 到 8 的所有整数,如何让 R 重新编码这些变量?提前致谢。

0 投票
2 回答
67 浏览

r - 有条件地替换下一行中的值

如何编写一个条件函数来比较 R 中数据框的行中的条目。例如,如果第 1 行中的条目大于第 2 行中的条目,则将第 2 行条目替换为“较低”

如果应用该功能,第一列中的条目将更高,更低,更低。

0 投票
0 回答
102 浏览

r - R 和元字符:处理错别字

问题:

假设我们有一个非常大且凌乱的数据框。由于异构数据收集过程和拼写错误,变量的类别难以阅读。

目标:

dt$var1 级别为四个。我想让它们只有两个:“暴风雪”和“风暴”。

注意:生成新变量 dt$var1b 是可行的。

尝试:

正确记录观察 [2] 是我的主要问题。数据库非常混乱,即使有输入错误,因此我必须为重新编码函数提供一个带有通用正则表达式的逻辑语句。

我可以启动一个 recode dt$evty[dt$evty=="(.[Bb][Ll][Ii])+"] <- "blizzard",但我没有找到一个合适的过程来结合索引和正则表达式。

我可以用 部分减少问题dt$var1 <- lowercase(dt$var1),但它不能解决拼写错误的问题,并且可能导致信息丢失。

我在这里找到了有价值的信息:http: //www.cookbook-r.com/Manipulating_data/Recoding_data/

在这里: 用 R 重新编码变量

这里是正则表达式: https ://www.stat.auckland.ac.nz/~paul/ItDT/HTML/node84.html

但我不知道如何创建一个程序来处理拼写错误(即“blissard”而不是“blizzard”)而无需人工干预。

我怀疑我从错误的角度面对问题。任何关于此事的优雅建议都非常感谢。

0 投票
2 回答
4631 浏览

python - Pandas/Python: Replace multiple values in multiple columns

All, I have an analytical csv file with 190 columns and 902 rows. I need to recode values in several columns (18 to be exact) from it's current 1-5 Likert scaling to 0-4 Likert scaling.

I've tried using replace:

But that throws a Value Error: "Replacement not allowed with overlapping keys and values"

I can use map:

But, I know there has to be a more efficient way to accomplish this since this use case is standard in statistical analysis and statistical software e.g. SPSS

I've reviewed multiple questions on StackOverFlow but none of them quite fit my use case. e.g. Pandas - replacing column values, pandas replace multiple values one column, Python pandas: replace values multiple columns matching multiple columns from another dataframe

Suggestions?

0 投票
1 回答
110 浏览

r - 如何根据R中另一个变量中的匹配值替换变量中的值?

假设我的 df 中有一个变量 Font 下的 NA 值。如何根据变量 Group 下的匹配值替换 NA 值?例如,我希望 Group = 1 的所有行都将 Arial 作为字体,而 Group = 2 的所有行都将 Helvetica 作为字体。我知道我可以执行以下操作: df$Font[df$Group==1]<-"Arial" 或使用 'car' 包中的 recode() 。然而,假设有成千上万个不同的组和字体,我不想在我的代码中不断地输入它们。

0 投票
1 回答
521 浏览

r - 重新编码到同一个变量

我有一大组包含 110 个变量的调查数据。一些答案的范围从 1 到 5,其中 1 是最好的,而 5 是最差的。为了进行分析,我想将其反转,其中 5=1、4=2、3=3、2=4 和 1=5。

如果我将它放入一个对象中,它会起作用:

然而,如果我这样做,我将拥有 110 个对象。因此,我正在寻找一种直接在数据框中更改该变量的方法。

我试过重新编码:

如果您查看该变量,则可行,但如果您询问平均值,它并没有改变,例如从 1.82 到 4.18。

有谁知道这是怎么做到的吗?

0 投票
2 回答
218 浏览

r - R:以其他变量的值为条件求和变量值

我有一个看起来像这样的数据框:

现在,我想创建所有国家每年的“居民”总和。即,我的解决方案如下所示:

我的原始数据框包含更多观察结果,这就是为什么我不能手动进行计算。

0 投票
1 回答
504 浏览

c# - 如何将 int64 快速转换(重新编码)为字符限制字符串?

我正在寻找一种方法将仅由数字 [0,1,2,...8,9] 组成的字符串重新编码为另一个不同字符集的字符串,例如数字和字母 [0,1,...9 ,a,b,...z](例如)。结果字符串通常应该比纯数字字符串短。该方法应该是可逆的并且应该是快速的。C# 答案中的源代码将不胜感激,但也欢迎一般的想法;-) 示例:

应用于“ar4cju7d”的反转方法的输出应该是“1234567890123。

0 投票
3 回答
588 浏览

sas - 将 *most* 变量设置为缺失,同时保留少数几个变量的内容

我有一个这样的数据集(但有几百个变量):

我想保留 ID、b2 和 tre,但将其他所有内容设置为缺失。在这么小的数据集中,我可以轻松使用call missing (q1, g7, q3, zz, gl, az)- 但在具有更多变量的集合中,我实际上想说call missing (of _ALL_ *except ID, b2, tre*)

显然,SAS 无法读懂我的想法。我已经考虑过涉及另一个数据步骤或 proc sql 的解决方法,我将原始变量复制到新的 ds 并将它们合并回 post,但我正在尝试找到一个更优雅的解决方案。