r - 根据R中矩阵中的数据创建虚拟变量

Question

我有一个数据框，其中包含属于 n 个不同国家的 1000 个观察值。每个国家有超过 1 个观测值，每个国家的观测值数量不同。我需要创建一个数字从 (1 到 n-1) 的列，每个数字对应一个不同的国家。也就是说，我正在创建一个虚拟变量，我不在乎哪个国家有哪个数字。我只需要创建这样的假人。我的数据是这样的

  Region     x
1    be1 71615
4  be211 54288
5  be112 51158
6  it213 69856
8  it221 71412
9  uk222 79537
10 de101 94827
11 de10a 98273
12 dea10 92827
..    ..    ..

每个国家/地区在区域列中都有自己的“代码”，例如 beXXXX 对应于比利时，ukXXX 对应于英国等。因此，我想我可以利用Region 列中的前2个字母来创建我的假人。我从这里知道该命令grep()可以完成这项工作，但是我需要一个脚本，该脚本可以在 Region 的首字母发生变化时自动从 1 切换到 n-1。

预期的输出应该是这样的

 Region     x   Dummy
1    be1 71615      1
4  be211 54288      1
5  be112 51158      1
6  it213 69856      2
8  it221 71412      2
9  uk222 79537      3
10 de101 94827      4
11 de10a 98273      4
12 dea10 92827      4
..    ..    ..     ..

在这种情况下，对于我的样本中的“n”个国家，1 对应于“be”（比利时），2 对应于“it”（意大利），依此类推。

score 5 · Accepted Answer

如何创建一个因子变量（您可以使用显示底层整数代码as.integer）。我们使用regexecandregmatches提取出现在Region变量开头的字母代码（忽略后面出现的字母）并将它们变成因子...

#  Data with an extra row (row number 11)
df <- read.table( text = "  Region     x
1    be1 71615
4  be211 54288
5  be112 51158
6  it213 69856
8  it221 71412
9  uk222 79537
11  uk222a 79537
10 de101 94827" , h = T , stringsAsFactors = FALSE )

levs <- regmatches( df$Region , regexec( "^[a-z]+" , df$Region ) )

df$Country <- as.integer( factor( levs , levels = unique(levs ) ) )

   Region     x Country
1     be1 71615       1
4   be211 54288       1
5   be112 51158       1
6   it213 69856       2
8   it221 71412       2
9   uk222 79537       3
11 uk222a 79537       3
10  de101 94827       4

unlist( regmatches( df$Region , regexec( "^[a-z]+" , df$Region ) ) )
[1] "be" "be" "be" "it" "it" "uk" "uk" "de"

score 2 · Accepted Answer

使用的另一个选项gsub是：

gsub('.*(^[a-z]{2}).*','\\1',c('de111', 'de11a','dea11'))
"de" "de" "de"

然后你使用factorandas.integer如上一个答案所示。

r - 根据R中矩阵中的数据创建虚拟变量

2 回答 2

Related

Reference