我在两个变量上运行“ddply”时感觉很糟糕,这似乎应该是一个简单的命令。
样本数据(df):
Brand Day Rev RVP
A 1 2535.00 195.00
B 1 1785.45 43.55
C 1 1730.87 32.66
A 2 920.00 230.00
B 2 248.22 48.99
C 3 16466.00 189.00
A 1 2535.00 195.00
B 3 1785.45 43.55
C 3 1730.87 32.66
A 4 920.00 230.00
B 5 248.22 48.99
C 4 16466.00 189.00
我正在使用命令:
df2<-ddply(df, .(Brand, Day), summarize, Rev=mean(Rev), RVP=sum(RVP))
我的数据框有大约 2600 个观察值,有 45 个级别的“品牌”和多达 300 个级别的“日”(使用 'difftime' 编码)。
简单地按“Day”分组时,我可以轻松使用“ddply”,但是当我也尝试按“Brand”分组时,我的电脑死机了。
想法?