我正在尝试设计一种方法来根据它们是否在该向量中的某个值之后出现来重新编码向量中的项目。我有一个完整的数据集(按主题分组的时间序列),其中包含一个指示主题初始曝光月份的列(该列的 NA 表示缺乏曝光,“G”表示发生月份曝光)。一旦对象被“暴露”,我需要该对象的向量来表明他/她已经暴露,直到该对象的观察期结束。这是一个精简的示例和一个可行的解决方案,但并非在每种情况下我都需要它:
x2 <- c("G", NA, NA, NA, NA)
solution <- c(rep(1, length(x2)- length(rep("G", (length(x2)+1 )- which(x2=="G")))), rep("G", (length(x2)+1 )- which(x2=="G")))
在这种情况下,解决方案如下所示:
> solution
[1] "G" "G" "G" "G" "G"
也就是说,当遇到不包含任何“G”的向量时,解决方案会中断
x2 <- c(NA, NA, NA, NA, NA)
solution <- c(rep(1, length(x2)- length(rep("G", (length(x2)+1 )- which(x2=="G")))), rep("G", (length(x2)+1 )- which(x2=="G")))
Error in rep("G", (length(x2) + 1) - which(x2 == "G")) :
invalid 'times' argument
因此,在一天结束时,解向量需要:1)与原始向量(在本例中为 x2)具有相同的长度,并且 2)在初始“G”之后的每个位置都包含值“G”在原始向量中
还有一件事,我需要某种形式的解决方案,我可以通过分组因子传递给 plyr(因为我需要在大型数据集上重新编码许多按因子分组的向量)。
提前非常感谢大家!克里斯