3

我想首先找到一个max of 0 or jwherej是任何变量,然后将这些求和为一个 dataframe 的 k (k=1,2,...k) 变量data。在stata,我做了如下:

 gen sum=max(0,x)+max(0,y)+max(0,z)+...+max(0,k)

R我使用以下方法:

data$sum<-ifelse(data$x<0,0,data$x*1)+ifelse(data$y<0,0,data$y*1)+ifelse(data$z<0,0,data$z*1)+...+ifelse(data$k<0,0,data$k*1)

我想知道是否有另一种有效的方法R来做同样的事情。

4

3 回答 3

5

试试这个:

mycols   <- c("x", "y", "z", "k")
data$sum <- rowSums(data[mycols] * (data[mycols] > 0))

检查一些示例数据:

data <- data.frame(x = runif(10) - 0.5,
                   y = runif(10) - 0.5,
                   z = runif(10) - 0.5,
                   k = runif(10) - 0.5)

identical(rowSums(data[mycols] * (data[mycols] > 0)), # mine
          ifelse(data$x < 0, 0, data$x * 1) +         # yours
          ifelse(data$y < 0, 0, data$y * 1) +
          ifelse(data$z < 0, 0, data$z * 1) +
          ifelse(data$k < 0, 0, data$k * 1))
# [1] TRUE
于 2013-01-12T03:14:22.203 回答
4

Flodel 出色解决方案的替代方案,注意到第一个看起来很像您的 Stata 代码。

with( data,   # terrible name for an R object, BTW
   pmax(x, 0) + pmax(y, 0) + pmax(z, 0) +pmax(k,0) )

rowSums( apply(data[-5], 2, pmax, 0) )

第二个可能更慢,但它正在为这场 R 高尔夫比赛而战。也是一个矩阵数学解决方案:

as.matrix( (data[,1:4] > 0 )* data[, 1:4]) %*% rep(1, 4  )
于 2013-01-12T04:07:52.257 回答
2

不是问题,但是在 Stata 中写出每个变量可能是乏味且容易出错的。这里可能有循环的范围:

gen sum = 0 
quietly foreach v of var varlist { 
    replace sum = sum + `v' if inrange(`v', 0, .) 
} 

您必须在哪里计算出 varlist 应该是什么。

于 2013-01-12T09:59:32.903 回答