-1

以下是我拥有的示例数据框。

    Year - Revenue
    2001  1.23
    2002 23.4
    2003 12.4
    2004 18.0
    ...

我正在寻找计算运行统计数据 - 例如同比增长。这将是收入 [2002] - 收入 [2001]。

我可以使用 for 循环来做到这一点。但是 plyr 中是否有基本功能或任何东西可以更优雅地完成此任务?

4

1 回答 1

2

正如建议的那样diff,将做你正在寻找的东西。如果您的数据集很大或有组,您可以尝试 dplyr。

require(dplyr)

dat <- read.table(header = TRUE, text = "Year Revenue
2001  1.23
2002 23.4
2003 12.4
2004 18.0")

mutate(dat, yoy = Revenue - lag(Revenue))

  Year Revenue    yoy
1 2001    1.23     NA
2 2002   23.40  22.17
3 2003   12.40 -11.00
4 2004   18.00   5.60

编辑:回复 Eddi 的评论。数据的复制方式似乎也存在一些差异。请参阅下面 dplyr 的输出changes

> dplyr_dat <- mutate(dat, yoy = Revenue - lag(Revenue))
> dplyr::changes(dat, dplyr_dat)
Changed variables:
          old new        
yoy           0x10d951400

Changed attributes:
          old         new        
names     0x10c3161b8 0x10deeb128
class     0x101ca6568 0x103668108
row.names 0x10c233f88 0x100c98a68
> diff_dat <- within(dat, yoy <- c(NA, diff(Revenue)))
> dplyr::changes(dat, diff_dat)
Changed variables:
          old         new        
Year      0x10c316180 0x11086b9f0
Revenue   0x1036b2120 0x1070c0f28
yoy                   0x110118a40

Changed attributes:
          old         new        
names     0x10c3161b8 0x10c310ff8
class     0x101ca6568 0x10f4ce7a8
row.names 0x10c1d6a38 0x10f7dca78
于 2014-02-05T02:04:14.343 回答