0

我正在尝试计算数据框中的经过时间,其中经过时间的“开始”值取决于数据框中因子列的值。(为了简单的问题,我将时间值视为数字而不是时间对象 - 我的问题是关于拆分应用组合,而不是时间对象)。我的数据框如下所示:

df <- data.frame(id=gl(2, 3, 5, labels=c("a", "b")), time=1:5)

我想通过从每次中减去每个因子级别的最小时间来计算经过时间(尽管为了这个示例,我将只处理数值,而不是时间值)。所以我想将数据框拆分为,从列中的每个元素中id减去最小值,然后返回一个带有转换值的向量(或数据框)。我想最终得到类似的东西:yy

> dfTrans
id  time  elapsed
a      1        0
a      2        1
a      3        2
b      4        0
b      5        1   

对 plyr 来说似乎是一项完美的任务,但我找不到简单的解决方案。

我能想到的最好的是

elapsed <- dlply(df, .(id), function(x) x$time - min(x$time))
elapsed_comb <- NA
for(i in 1:length(names(elapsed))) {
  elapsed_comb <- c(elapsed_comb, elapsed[[i]])
}
elapsed_comb <- elapsed_comb[-1]
df$elapsed <- elapsed_comb

这是不雅的,而且看起来很脆弱。肯定有更好的方法吗?

4

2 回答 2

3

当结果是一个长度与数据帧中的行数相同的向量时,您应该首先考虑“ave”函数:

 df$elapsed <- ave(df$time, df$id, FUN=function(x) x -min(x) )
 df
  id time elapsed
1  a    1       0
2  a    2       1
3  a    3       2
4  b    4       0
5  b    5       1
于 2012-06-24T04:51:47.633 回答
2

这是一个ddply解决方案

ddply(df, .(id), summarize, time = time, elapsed = seq(length(id))-1)

一个使用 rle 代替

df$elapsed <- unlist(sapply(rle(as.numeric(df$id))$lengths, seq))-1
于 2012-06-24T02:06:27.283 回答