我不确定这是否可能,但如果是的话,它会让生活更有效率哦。
更广泛的 SO 社区会感兴趣的一般问题:for 循环(和 apply 等基本函数)适用于一般/一致的操作,例如将 X 添加到数据帧的每一列或每一行。我有一个想要执行的通用/一致操作,但数据框的每个元素都有唯一的值。
有没有办法比为每个分组对我的数据框进行子集化、应用具有相对于该分组的特定数字的函数然后重新组合更有效地做到这一点?我不在乎它是for 循环还是apply,但如果它使用plyr功能,则可以加分。
这是我正在处理的更具体的问题:我有以下数据。最终我想要的是一个具有日期的时间序列数据框,每一列代表一个区域与某个基准的关系。
问题:每个地区的兴趣衡量标准不同,基准也不同。这是数据:
library(dplyr)
library(reshape2)
data <- data.frame(
region = sample(c("northeast","midwest","west"), 100, replace = TRUE),
date = rep(seq(as.Date("2010-02-01"), length=10, by = "1 day"),10),
population = sample(50000:100000, 10, replace = T),
skiers = sample(1:100),
bearsfans = sample(1:100),
dudes = sample(1:100)
)
以及我正在处理的摘要框架:
data2 <- data %.%
group_by(date, region) %.%
summarise(skiers = sum(skiers),
bearsfans= sum(bearsfans),
dudes = sum(dudes),
population = sum(population)) %.%
mutate(ppl_per_skier = population/skiers,
ppl_per_bearsfan = population/bearsfans,
ppl_per_dude = population/dudes) %.%
select(date, region, ppl_per_skier, ppl_per_bearsfan , ppl_per_dude)
这是棘手的部分:
- 对于东北,我只关心“ppl_per_skier”,基准是3500
- 对于中西部,我只关心“ppl_per_bearsfan”,基准是1200
- 对于西方,我只关心“ppl_per_dude”,基准是5000
我想出的解决这个问题的任何方法都涉及为每个度量创建子集,但是用数百个度量和不同的基准来大规模地这样做……并不理想。例如:
midwest <- data2 %.%
filter(region == "midwest") %.%
select(date, region, ppl_per_bearsfan) %.%
mutate(bmark = 1200, against_bmk = bmark/ppl_per_bearsfan-1) %.%
select(date, against_bmk)
同样对于每个区域,其各自的衡量标准和各自的基准,然后按日期将它们重新组合在一起。最终,我想要这样的东西,其中每个地区相对于其特定基准和衡量标准的表现按日期排列(当然这是假数据):
date midwest_againstbmk northeast_againstbmk west_againstbmk
1 2010-02-10 0.9617402 0.6008032 0.3403260
2 2010-02-11 0.5808621 0.5119942 0.7787559
3 2010-02-12 0.4828346 0.6560053 0.3747920
4 2010-02-13 0.6499841 0.7567194 0.8387461
5 2010-02-14 0.6367520 0.4564254 0.7269161
当我对每个组都有唯一的度量和基准值时,有没有办法获得这种数据和结构而不必为每个分组做 X 个子集?