21

我有一个向量,我需要对每个n数字求和并返回结果。这是我目前计划做的方式。有没有更好的方法来做到这一点?

v = 1:100
n = 10
sidx = seq.int(from=1, to=length(v), by=n)
eidx = c((sidx-1)[2:length(sidx)], length(v))
thesum = sapply(1:length(sidx), function(i) sum(v[sidx[i]:eidx[i]]))

这给出了:

thesum
 [1]  55 155 255 355 455 555 655 755 855 955
4

9 回答 9

31
unname(tapply(v, (seq_along(v)-1) %/% n, sum))
# [1] 55 155 255 355 455 555 655 755 855 955 
于 2013-03-07T07:39:08.137 回答
20

更新:

如果要对每 n 个连续数字求和,请使用colSums
如果要对每 n 个数字求和请使用rowSums

根据 Josh 的评论,这只有在n分割length(v)得很好的情况下才有效。

rowSums(matrix(v, nrow=n))
 [1] 460 470 480 490 500 510 520 530 540 550

colSums(matrix(v, nrow=n))
 [1]  55 155 255 355 455 555 655 755 855 955

于 2013-03-07T07:48:42.573 回答
13

更新

老版本不行。rep这里有一个用于创建分组因子的新 awnser 。无需使用cut

n <- 5 
vv <- sample(1:1000,100)
seqs <- seq_along(vv)
tapply(vv,rep(seqs,each=n)[seqs],FUN=sum)

您可以使用tapply

tapply(1:100,cut(1:100,10),FUN=sum)

或获取列表

by(1:100,cut(1:100,10),FUN=sum)

编辑

如果你有1:92,你可以用这个替换你的削减:

cut(1:92,seq(1,92,10),include.lowest=T)
于 2013-03-07T07:38:33.113 回答
7

一种方法是将向量转换为矩阵,然后取列总和:

colSums(matrix(v, nrow=n))
[1]  55 155 255 355 455 555 655 755 855 955

请注意:这隐含地假设您的输入向量实际上可以重塑为矩阵。如果不能,R 将回收向量的元素以完成矩阵。

于 2013-03-07T07:43:25.857 回答
4
v <- 1:100

n <- 10

cutpoints <- seq( 1 , length( v ) , by = n )

categories <- findInterval( 1:length( v ) , cutpoints )

tapply( v , categories , sum )
于 2013-03-07T07:39:31.117 回答
3

我将添加另一种没有apply家庭功能的方法

v <- 1:100
n <- 10

diff(c(0, cumsum(v)[slice.index(v, 1)%%n == 0]))
##  [1]  55 155 255 355 455 555 655 755 855 955
于 2013-03-07T08:00:17.537 回答
2

以下是迄今为止提供的一些主要变体

f0 <- function(v, n) {
    sidx = seq.int(from=1, to=length(v), by=n)
    eidx = c((sidx-1)[2:length(sidx)], length(v))
    sapply(1:length(sidx), function(i) sum(v[sidx[i]:eidx[i]]))
}

f1 <- function(v, n, na.rm=TRUE) {    # 'tapply'
    unname(tapply(v, (seq_along(v)-1) %/% n, sum, na.rm=na.rm))
}

f2 <- function(v, n, na.rm=TRUE) {    # 'matrix'
    nv <- length(v)
    if (nv %% n)
        v[ceiling(nv / n) * n] <- NA
    colSums(matrix(v, n), na.rm=na.rm)
}

f3 <- function(v, n) {                # 'cumsum'
    nv = length(v)
    i <- c(seq_len(nv %/% n) * n, if (nv %% n) nv else NULL)
    diff(c(0L, cumsum(v)[i]))
}

基本测试用例可能是

v = list(1:4, 1:5, c(NA, 2:4), integer())
n = 2

f0最终测试失败,但这可能会被修复

> f0(integer(), n)
Error in sidx[i]:eidx[i] : NA/NaN argument

cumsum 方法f3会出现舍入误差,并且在v“毒药”早期出现 NA 会导致后来的结果

> f3(c(NA, 2:4), n)
[1] NA NA

在性能方面,原方案还不错

> library(rbenchmark)
> cols <- c("test", "elapsed", "relative")
> v <- 1:100; n <- 10
> benchmark(f0(v, n), f1(v, n), f2(v, n), f3(v, n),
+           columns=cols)
      test elapsed relative
1 f0(v, n)   0.012     3.00
2 f1(v, n)   0.065    16.25
3 f2(v, n)   0.004     1.00
4 f3(v, n)   0.004     1.00

但是矩阵解决方案f2似乎既快速又灵活(例如,调整对少于n元素的尾随块的处理)

> v <- runif(1e6); n <- 10
> benchmark(f0(v, n), f2(v, n), f3(v, n), columns=cols, replications=10)
      test elapsed relative
1 f0(v, n)   5.804   34.141
2 f2(v, n)   0.170    1.000
3 f3(v, n)   0.251    1.476
于 2013-03-07T18:30:46.850 回答
2

聚会有点晚了,但我还没有看到rowsum()答案。rowsum()被证明比tapply()其他一些响应更有效,我认为它也将非常有效。

rowsum(v, rep(seq_len(length(v)/n), each=n))[,1]
#  1   2   3   4   5   6   7   8   9  10 
# 55 155 255 355 455 555 655 755 855 955

使用@Josh O'Brien 的分组技术可能会进一步提高效率。

rowsum(v, (seq_along(v)-1) %/% n)[,1]
#  0   1   2   3   4   5   6   7   8   9 
# 55 155 255 355 455 555 655 755 855 955 

只需换unname()行即可删除组名。

于 2017-10-31T22:40:17.917 回答
2

一种方法是使用rollapplyfrom zoo

rollapply(v, width=n, FUN=sum, by=n)
# [1]  55 155 255 355 455 555 655 755 855 955

如果length(v)不是 的倍数n

v <- 1:92

rollapply(v, width=n, FUN=sum, by=n, partial=T, align="left")
# [1]  55 155 255 355 455 555 655 755 855 183
于 2017-05-14T13:50:08.470 回答