4

我想计算从第一个观察到最后一个观察的每 4 个值的标准偏差。我找到了很多移动 SD 函数的答案,但我只需要一行代码来计算sd()每 4 个数据值的值并将答案写入数据框中的新列,如下所示:

示例数据:

Obs Count
1   56
2   29
3   66
4   62
5   49
6   12
7   65
8   81
9   73
10  66
11  71
12  59

期望的输出:

Obs Count SD
1   56    16.68
2   29    16.68
3   66    16.68
4   62    16.68
5   49    29.55
6   12    29.55
7   65    29.55
8   81    29.55
9   73    6.24
10  66    6.24
11  71    6.24
12  59    6.24

我尝试了下面的代码,但这显然是不正确的:

a <- for(i in 1: length(df)) sd(df$Count[i:(i+3)])

这应该是一项非常容易的任务,但我一直无法找到答案。我仍在学习,任何帮助将不胜感激。

4

3 回答 3

7

在基础 R 中,您可以使用以下内容创建“每 4 行”的索引:

(seq_len(nrow(mydf))-1) %/% 4
# [1] 0 0 0 0 1 1 1 1 2 2 2 2

使用它,您可以使用它ave来获得所需的结果:

mydf$SD <- ave(mydf$Count, (seq_len(nrow(mydf))-1) %/% 4, FUN = sd)
mydf
#    Obs Count        SD
# 1    1    56 16.680827
# 2    2    29 16.680827
# 3    3    66 16.680827
# 4    4    62 16.680827
# 5    5    49 29.545163
# 6    6    12 29.545163
# 7    7    65 29.545163
# 8    8    81 29.545163
# 9    9    73  6.238322
# 10  10    66  6.238322
# 11  11    71  6.238322
# 12  12    59  6.238322
于 2013-10-17T17:34:26.137 回答
4

另一种方法是使用rollapplyfrom zoo 包与rep.

> library(zoo)
> N <- 4 # every four values
> SDs <- rollapply(df[,2], width=N, by=N, sd)
> df$SD <- rep(SDs, each=N)
> df
   Obs Count        SD
1    1    56 16.680827
2    2    29 16.680827
3    3    66 16.680827
4    4    62 16.680827
5    5    49 29.545163
6    6    12 29.545163
7    7    65 29.545163
8    8    81 29.545163
9    9    73  6.238322
10  10    66  6.238322
11  11    71  6.238322
12  12    59  6.238322

您可能希望一次完成所有操作:

df$SD <- rep( rollapply(df[,2], width=N, by=N, sd), each=N)
于 2013-10-17T17:31:21.650 回答
2

这看起来更快(我没有测试过):

# mydf = your data
idxs = rep(1:nrow(mydf), each = 4, length = nrow(mydf))

mydf = within(mydf, {
  Sd = rep(tapply(Count, idxs, sd), each = 4)
})
print(mydf)
于 2013-10-17T17:54:56.967 回答