与这里的这个问题相关,但为了清楚起见,我决定问另一个问题,因为“新”问题与原始问题没有直接关系。简而言之,我正在使用 ddply 对三年中的每一年累积一个值。我的代码从第一年获取数据,并在该列的第二年和第三年行中重复。我的猜测是每个 1 年的块都被复制到整个列,但我不明白为什么。
问:如何在指定列的右侧行中获得每年的累计值?
[编辑:for 循环 - 或类似的东西 - 很重要,因为最终我想根据列名列表自动计算新列,而不是手动计算每个新列。循环遍历列名列表。]
我经常使用 ddply 和 cumsum 组合,所以突然遇到问题是相当令人烦恼的。
[编辑:此代码已更新为我确定的解决方案,该解决方案基于以下@Chase 的回答]
require(lubridate)
require(plyr)
require(xts)
require(reshape)
require(reshape2)
set.seed(12345)
# create dummy time series data
monthsback <- 24
startdate <- as.Date(paste(year(now()),month(now()),"1",sep = "-")) - months(monthsback)
mydf <- data.frame(mydate = seq(as.Date(startdate), by = "month", length.out = monthsback),
myvalue1 = runif(monthsback, min = 600, max = 800),
myvalue2 = runif(monthsback, min = 1900, max = 2400),
myvalue3 = runif(monthsback, min = 50, max = 80),
myvalue4 = runif(monthsback, min = 200, max = 300))
mydf$year <- as.numeric(format(as.Date(mydf$mydate), format="%Y"))
mydf$month <- as.numeric(format(as.Date(mydf$mydate), format="%m"))
# Select columns to process
newcolnames <- c('myvalue1','myvalue4','myvalue2')
# melt n' cast
mydf.m <- mydf[,c('mydate','year',newcolnames)]
mydf.m <- melt(mydf.m, measure.vars = newcolnames)
mydf.m <- ddply(mydf.m, c("year", "variable"), transform, newcol = cumsum(value))
mydf.m <- dcast(mydate ~ variable, data = mydf.m, value.var = "newcol")
colnames(mydf.m) <- c('mydate',paste(newcolnames, "_cum", sep = ""))
mydf <- merge(mydf, mydf.m, by = 'mydate', all = FALSE)
mydf