假设我有一张年龄表:
ages <- array(round(runif(min=10,max=200,n=100)),dim=100,dimnames=list(age=0:99))
假设现在我想在 5 岁的年龄组中折叠我的年龄表。
这可以通过总结不同的值很容易地完成:
ages.5y <- array(NA,dim=20,dimnames=list(age=paste(seq(from=0,to=95,by=5),seq(from=4,to=99,by=5),sep=""))
ages.5y[1]<-sum(ages[1:5])
ages.5y[2]<-sum(ages[6:10)
...
ages.5y[20]<-sum(ages[96:100])
也可以使用循环来完成:
for(i in 1:20) ages.5y[i]<-sum(ages[(5*i-4):(5*i)])
但是,虽然这种方法对于“常规”转换很容易,但如果新的间隔是不规则的,则循环方法变得不可行,例如。0-4,5:12,13-24,25-50,60-99。
如果我有单独的值而不是表格,则可以使用以下方法轻松完成cut
:
flattened <- rep(as.numeric(dimnames(ages)$age),ages)
table(cut(flattened,breaks=seq(from=0,to=100,by=5)))
这允许使用任何随机断点,例如breaks=c(5,10,22,33,41,63,88)
但是,这是一种资源非常密集的方法。
所以,我的问题是:有没有更好的方法来重新编码列联表?