1

我有一个数据框

data <- data.frame('a' = c('A','B','C','D','E'),
              'x' = c(1,2,NA,NA,NA),
              'y' = c(NA,NA,3,NA,NA),
              'z' = c(NA,NA,NA,4,NA))

它看起来像这样:

  a  x  y  z
1 A  1 NA NA
2 B  2 NA NA
3 C NA  3 NA
4 D NA NA  4
5 E NA NA NA

我希望得到这样的数据:

  a  N
1 A  1
2 B  2
3 C  3
4 D  4
5 E NA

谢谢!

4

3 回答 3

4

一个dplyr解决方案,使用coalesce.

library(dplyr)

data %>%
    mutate(N = coalesce(x, y, z)) %>%
    select(a, N)

  a  N
1 A  1
2 B  2
3 C  3
4 D  4
5 E NA

不需要selectwith transmute

data %>%
    transmute(a, N = coalesce(x, y, z))
于 2016-08-30T21:31:29.173 回答
1

你可能想尝试这样的事情:

> result <- apply(data[, -1], 1, function(x) ifelse(all(is.na(x)), NA, x[!is.na(x)]))
> data.frame(a=data[,1], N=result)
  a  N
1 A  1
2 B  2
3 C  3
4 D  4
5 E NA
于 2016-08-30T21:27:09.150 回答
1

pmax似乎在这里暗示自己,与循环遍历每一行相比,在大数据上应该更快:

do.call(pmax, c(data[c("x","y","z")],na.rm=TRUE) )
#[1]  1  2  3  4 NA

cbind(data["a"], N=do.call(pmax, c(data[c("x","y","z")],na.rm=TRUE) ))
#  a  N
#1 A  1
#2 B  2
#3 C  3
#4 D  4
#5 E NA
于 2016-08-31T00:16:33.760 回答