r - 在r中重新编码数据

Question

我有一个巨大的 1000 x 100000 数据框，如下所示，可以重新编码为数字值。

myd <- data.frame (v1 = sample (c("AA", "AB", "BB", NA), 10, replace = T),
                   v2 = sample (c("CC", "CG", "GG", NA), 10, replace = T),
                   v3 = sample (c("AA", "AT", "TT", NA) , 10, replace = T),
                   v4 = sample (c("AA", "AT", "TT", NA) , 10, replace = T),
                   v5 = sample (c("CC", "CA", "AA", NA) , 10, replace = T)
                   )
myd
     v1   v2   v3   v4   v5
1    AB   CC <NA> <NA>   AA
2    AB   CG   TT   TT   AA
3    AA   GG   AT   AT   CA
4  <NA> <NA> <NA>   AT <NA>
5    AA <NA>   AA <NA>   CA
6    BB <NA>   TT   TT   CC
7    AA   GG   AA   AT   CA
8  <NA>   GG <NA>   AT   CA
9    AA <NA>   AT <NA>   CC
10   AA   GG   TT   AA   CC

每个变量可能有四个唯一值。

unique(myd$v1)

[1] AB   AA   <NA> BB  
Levels: AA AB BB

unique(myd$v2)

[1] CC   CG   GG   <NA>
  Levels: CC CG GG

这样的唯一值可以是任何组合，但是由两个字母组成（- NA 除外）。例如，“A”、“B”在第一种情况下将组合成“AA”、“AB”、“BB”。这些的数字代码分别为 1、0、-1。类似地，对于第二种情况，字母“C”、“G”组成“CC”、“CG”、“GG”，因此数字代码分别为 1、0、-1。因此，上面的 myd 需要重新编码为：

 myd
         v1   v2   v3    v4      v5
    1    0   1     <NA>  <NA>    1
    2    0   0     -1    -1      1
    3    1   -1     0    0       0
    4  <NA>  <NA>  <NA>   0     <NA>
    5    1  <NA>    1  < NA>      0
    6   -1  <NA>    -1    -1      -1
    7    1   -1    1      0        0
    8  <NA>   -1   <NA>   0        0
    9    1  <NA>    0    <NA>     -1
    10   1   -1    -1     1       -1

score 8 · Accepted Answer

我将发布一个不同的解决方案——（跳至data.table超快方法！）

如果你想重新编码AA, AB, BB，1,0,-1等等，你可以使用索引（以及数字解决方案的因子）。如果您愿意，这将使您有不同的重新编码！

自制重新编码功能

simple_recode <- function(.x, new_codes){
  new_codes[as.numeric(.x)]
 }

as.data.frame(lapply( myd, simple_recode, new_codes = 1:-1))

利用`factor`

factor您可以通过调用新级别来简单地重新标记字母labels

as.data.frame(lapply(myd, factor, labels = 1:-1))

`data.table`为了效率

如果您的数据很大，那么我建议采用data.table一种节省内存和时间的方法。

library(data.table)
DT <- as.data.table(myd)
as.data.table(DT[,lapply(.SD, simple_recode, new_codes = 1:-1))])

或者，更高效

as.data.table(DT[, lapply(.SD, setattr, 'levels', 1:-1)])

或者，甚至更有效（修改适当的级别，并避免 as.data.table 调用）

 for(name in names(DT)){
    setattr(DT[[name]],'levels',1:-1)
     }

setattr通过引用修改，所以没有复制。

使用 data.table 和 setattr 的几乎瞬时方法

正如这个大数据集所展示的

# some big data (100 columns, 1e6 rows)
big  <- replicate(100, factor(sample(c('AA','AB','BB', NA), 1e6, T)), simplify = F)
bigDT <- as.data.table(big)

system.time({
  for(name in names(big)){
    setattr(big[[name]],'levels',1:-1)
     }
  }))

##  user  system elapsed 
##    0        0       0

score 7 · Accepted Answer

您可以利用您的数据是因子的事实，这些因子下面有数字索引。

例如：

> as.numeric(myd$v1)
 [1]  2  2  1 NA  1  3  1 NA  1  1

数值对应于levels()因子的：

> levels(myd$v1)
[1] "AA" "AB" "BB"

所以 1 == AA, 2 == AB, 3 == BB...等等。

因此，您可以简单地将数据转换为数字，并应用必要的数学运算来让您的数据按您想要的方式缩放。所以我们可以减去 2，然后乘以 -1 得到你的结果：

(sapply(myd, as.numeric) - 2) * -1
#-----
      v1 v2 v3 v4 v5
 [1,]  0  1 NA NA  1
 [2,]  0  0 -1 -1  1
 [3,]  1 -1  0  0  0
 [4,] NA NA NA  0 NA
 [5,]  1 NA  1 NA  0
 [6,] -1 NA -1 -1 -1
 [7,]  1 -1  1  0  0
 [8,] NA -1 NA  0  0
 [9,]  1 NA  0 NA -1
[10,]  1 -1 -1  1 -1

score 4 · Accepted Answer

If you set up an assignment so the LHS has the proper structure, you can use the implicitly coerced values of the factors as indices into the values you want:

> myd[] <- c(-1,0,1)[data.matrix(myd)]
> myd
   v1 v2 v3 v4 v5
1  NA  0  0  0  1
2  -1  1  0  0 -1
3   0 NA  1  0  0
4  NA -1 -1  0 -1
5  -1  0  1 -1 NA
6   0 NA  0  1 NA
7  NA  0  1 NA -1
8   0  0  0 -1  1
9  -1 NA  1 -1 NA
10  0  1  1 NA NA

r - 在r中重新编码数据

3 回答 3

自制重新编码功能

利用factor

data.table为了效率

使用 data.table 和 setattr 的几乎瞬时方法

Related

Reference

利用`factor`

`data.table`为了效率