3

我有一个包含 3 个变量的数据框:地点、时间和值(P、T、X)。我想创建第四个变量,它将是 X 的累积和。通常我喜欢用 进行分组计算sqldf,但似乎找不到 的等价物cumsum。那是:

sqldf("select P,T,X, cumsum(X) as X_CUM from df group by P,T") 

不起作用。这甚至可能sqldf吗?我试过doBy了,但这也不是全部cumsum

4

3 回答 3

9

设置一些测试数据:

DF <- data.frame(t = 1:4, p = rep(1:3, each = 4), value = 1:12)

现在我们有三个解决方案。首先,我们根据要求使用默认 SQLite 数据库使用sqldf 。接下来我们再次使用 sqldf 执行此操作,但这次使用 PostgreSQL 使用RPostgreSQLRpgSQL驱动程序。PostgreSQL 支持简化 SQL 的分析窗口函数。您需要先设置一个 PostgreSQL 数据库才能执行此操作。最后,我们展示了一个仅使用 R 核心的纯 R 解决方案。

1) sqldf/RSQLite

library(sqldf)

sqldf("select a.*, sum(b.value) as cumsum 
    from DF a join DF b 
    using (p)
    where a.t >= b.t
    group by p, a.t"
)

2) sqldf/RPostgreSQL

library(RPostgreSQL)
library(sqldf)

sqldf('select *,
    sum(value) over (partition by p order by t) as cumsum 
    from "DF"'
)

(这也适用于 RpgSQL PostgreSQL 驱动程序。要使用它,您必须安装 Java 并设置 PostgreSQL 数据库,然后代替上述使用:1ibrary(RpgSQL); sqldf(...)其中使用相同的 SQL 字符串,但 . 周围不应有引号DF。)

3) 纯R

transform(DF, cumsum = ave(value, p, FUN = cumsum))
于 2011-12-19T12:23:27.207 回答
1

我希望我明白你想要什么:

library(plyr)
ddply(df, .(P,T), summarize, cumsum(X))

这对你有帮助吗?

于 2011-12-19T11:27:02.023 回答
1

或者,另一个选项是data.table

> library(data.table)
> DT = data.table(place = 1:4, time = rep(1:3, each = 4), value = 1:3)
> setkey(DT,place,time)   # order by place and time
> DT
      place time value
 [1,]     1    1     1
 [2,]     1    2     2
 [3,]     1    3     3
 [4,]     2    1     2
 [5,]     2    2     3
 [6,]     2    3     1
 [7,]     3    1     3
 [8,]     3    2     1
 [9,]     3    3     2
[10,]     4    1     1
[11,]     4    2     2
[12,]     4    3     3
> DT[,list(time,value,cumsum(value)),by=place]
      place time value V3
 [1,]     1    1     1  1
 [2,]     1    2     2  3
 [3,]     1    3     3  6
 [4,]     2    1     2  2
 [5,]     2    2     3  5
 [6,]     2    3     1  6
 [7,]     3    1     3  3
 [8,]     3    2     1  4
 [9,]     3    3     2  6
[10,]     4    1     1  1
[11,]     4    2     2  3
[12,]     4    3     3  6
> 
于 2011-12-20T17:03:39.393 回答