r - r- 每个组合并不总是出现时的累积频率

Question

我需要按每天的通话次数来获取累积的客户。

一个示例表是：

> data
   dia cli llam elegidos cumllam
1 1-11   a    1        1       1
2 3-11   a    1        1       2
3 1-11   b    2        1       2
4 2-11   b    1        1       3
5 2-11   c    2        0       2

如您所见，客户 a 在第 2-11 天没有被调用，因此客户 a + 第 2-11 天的组合没有出现在表格中。如果我运行：

series<-data.frame(dcast(data, elegidos+dia~cumllam , length))

我得到：

> series
  elegidos  dia X1 X2 X3
1        0 2-11  0  1  0
2        1 1-11  1  1  0
3        1 2-11  0  0  1
4        1 3-11  0  1  0

但是，如果您考虑到第 2 天有多少客户被调用一次，客户 a 应该会出现，但它不会出现，因为我在前一张表中没有针对组合客户 a 和第 2-11 天的行。

该表应如下所示：

  elegidos  dia X1 X2 X3
1        0 2-11  0  1  0
2        1 1-11  1  1  0
3        1 2-11  1  0  1
4        1 3-11  0  1  1

x1 是直到（包括该行）当天正好接到 1 个电话的客户数量。

x2 是直到（包括当天）恰好收到 2 个电话的客户数量。

等等。

解释是：

客户“a”在第 1 天和第 3 天接到电话，客户“b”在第 1 天接到 2 个电话，在第 2 天接到 1 个电话。因此，第一天我们有 1 个客户接听 1 个电话，另一个接听 2 个电话。
第 2 天，由于是累积的，我们有客户 a，他打一个电话保持不变，客户 b 又接到一个电话，达到 3 个电话。
在第 3 天，客户 a 接到另一个电话并累积上升到 2 个电话，这就是他在 x2 中而客户 b 在 x3 中保持不变的原因。

有没有办法对每一天进行累积计数，而不必为每个客户日组合创建一行？

谢谢。

score 1 · Accepted Answer

尝试这个：

dat1 <-data[!!data$elegidos,]
dat2 <- expand.grid(dia=sort(unique(dat1$dia)), cli=unique(dat1$cli))
dat3 <- merge(data,dat2, all=TRUE)
dat3N <- dat3[with(dat3, order( cli, dia)),]
library(zoo)
dat3N[,c('elegidos', 'cumllam')] <- lapply(dat3N[, 
                      c('elegidos', 'cumllam')], na.locf)

library(reshape2)
dcast(dat3N, elegidos+dia~cumllam, length, value.var='cumllam')
#  elegidos  dia 1 2 3
#1        0 2-11 0 1 0
#2        1 1-11 1 1 0
#3        1 2-11 1 0 1
#4        1 3-11 0 1 1

更新

你也可以这样做data.table

 library(data.table)
 DT <- data.table(data)
 setkey(DT, dia, cli)
 DT1 <- rbind(DT[!!elegidos, CJ(dia=unique(dia), 
      cli=unique(cli))],  DT[elegidos==0, 1:2, with=FALSE])
 nm1 <- c('elegidos', 'cumllam')
 #There is also a  roll option but unfortunately I couldn't get it right here.
 # So, I am using na.locf from zoo. 
 DT2 <- DT[DT1[order(cli, dia)]][,(nm1):= lapply(.SD, na.locf), .SDcols=nm1]
 dcast.data.table(DT2, elegidos+dia~cumllam, length, value.var='cumllam')
 #   elegidos  dia 1 2 3
 #1:        0 2-11 0 1 0
 #2:        1 1-11 1 1 0
 #3:        1 2-11 1 0 1
 #4:        1 3-11 0 1 1

数据

data <- structure(list(dia = c("1-11", "3-11", "1-11", "2-11", "2-11"
), cli = c("a", "a", "b", "b", "c"), llam = c(1L, 1L, 2L, 1L, 
2L), elegidos = c(1L, 1L, 1L, 1L, 0L), cumllam = c(1L, 2L, 2L, 
3L, 2L)), .Names = c("dia", "cli", "llam", "elegidos", "cumllam"
), class = "data.frame", row.names = c("1", "2", "3", "4", "5"))

r - r- 每个组合并不总是出现时的累积频率

1 回答 1

更新

数据

Related

Reference