r - 按因子二分数据

Question

我需要根据两个因素创建一个二分法变量（一个希望它是可能的）。

假设我有数据：

    d <- data.frame ( 
    agegroup = c(2,1,1,2,3,2,1,3,3,3,3,3,1,1,2,3,2,1,1,2,1,2,2,3) ,
    gender = c(2,2,2,2,2,2,1,2,1,1,1,2,1,1,2,2,1,1,1,1,2,1,1,1) , 
    hourwalking = c(0.3,0.5,1.1,1.1,1.1,1.2,1.2,1.2,1.3,1.5,1.7,1.8,2.1,2.1,2.2,2.2,2.3,2.4,2.4,3,3.1,3.1,4.3,5)        
    )

我想使用特定于性别和年龄组的中位数（例如，当年龄组 = 1 和性别 = 1 时，中位数 = 2.1（使用 excel 找到中位数））创建一个二进制（LowWalkHrs）。LowWalkHrs 将是数据集中的一个添加变量，因此输出将是：

     agegroup gender hourwalk LowWalkHrs
        2       2       0.3       1
        1       2       0.5       1
        1       2       1.1       0
        2       2       1.1       1
        3       2       1.1       1
        2       2       1.2       0
        1       1       1.2       1
          ....
        3       1       5         0

我有一个相当大的数据集（~10k 观察），所以 Excel 是不可能的。

在 R 中，我尝试了 cut 和 cut2，它似乎不采用因子变量，以及 ddply，它给了我一个错误消息（错误消息（$<-.data.frame“ *tmp*lowWalkHrs”，value = list（hourwalking = c（0.63，：替换有949行，数据有11303）。

score 2 · Accepted Answer

d <- data.frame ( 
    agegroup = c(2,1,1,2,3,2,1,3,3,3,3,3,1,1,2,3,2,1,1,2,1,2,2,3) ,
    gender = c(2,2,2,2,2,2,1,2,1,1,1,2,1,1,2,2,1,1,1,1,2,1,1,1) , 
    hourwalking = c(0.3,0.5,1.1,1.1,1.1,1.2,1.2,1.2,1.3,1.5,1.7,1.8,2.1,2.1,2.2,2.2,2.3,2.4,2.4,3,3.1,3.1,4.3,5)        
   )

d$LowWalkHrs=1*with(d,hourwalking<ave(hourwalking,list(factor(agegroup,exclude=NULL),factor(gender,exclude=NULL)),FUN=median))

添加了 factor(...,exclude=NULL) 以将 NA 视为单独的组。

score 2 · Accepted Answer

我怀疑这可能很慢，但我认为它有效：

z <- mapply(d$agegroup, d$gender, d$hourwalking, FUN=function(a,g,h)
    as.numeric(h < median(d$hourwalking[d$agegroup==a & d$gender==g])) )

r - 按因子二分数据

2 回答 2

Related

Reference