2

我正在尝试在一个看起来像这个可重现示例的 data.table 中测试各种条件

 set.seed(17)
 year <- 1980 + rnbinom(10000,3,0.35)
 event <- rep(LETTERS, length.out=10000)
 z <- as.integer(runif(10000,min = 0, max = 10))
 dt <- data.table(event,year,z)
 setkey(dt, event,year)
 dt <- dt[,sum(z), by=c("event","year")]

V1(从最后一个命令出现)表示事件发生的计数。

所以数据表是一个有序数组,我需要在它上面执行各种函数。这里有些例子:

  1. 如何计算每个事件在前 10 年发生的滚动总和(或滚动平均值)?因此,对于A 1990所需的输出为 1,452(1980 年到 1989 年之间)。对于H 2012输出为 11,因为在 2002 年和 2011 年之间只有 11 次出现(2002 年 3 次,2007 年 3 次,2010 年 5 次)。对于A 1983输出为NA

  2. 如何检查事件是否在前 15 年中至少有 12 年发生?因此,对于A 1997,我们可以看到该事件在前 15 年(1982 - 1996 年,除 1996 年之外的每一年都发生)中发生了超过 12 年,因此符合标准。然而,对于A 2001,我们看到该事件仅发生在前 15 年(1986 - 2000 年)中的 11 年,它没有发生在 1996、1998、1999 和 2000 年)不符合标准。此处所需的输出将是离散的 1(满足标准)或 0(未满足标准)

理想情况下,该代码不仅可以计算 1 和 2 yearsdata.table而且还可以计算 1980 年至 2013 年间缺失的那些。所以对于K 2005,我们可以将 Q1 的结果计算为 25 (13 + 5 + 3 + 3 + 2) (感谢@Arun 指出前一个错误)。对于第二季度,我们看到该事件在 1999、2000、2001、2003 和 2004 年没有发生,因此“15 年中至少有 12 年”的标准没有得到满足。此外,事件-年份组合可能存在于 data.table 中,但 V1 的值为 0(参见第 18 行,A 2001)。理想情况下,这种零出现将被视为不出现(例如,通过删除所有 V1 为零的行)。

我知道发布两个问题并不常见,但我觉得它们属于一起并且确实与类似的问题相关。希望有人可以提出一些建议。

非常感谢,

西蒙

4

1 回答 1

2

对于你的第一个问题:

这将获得不一定在数据集中的年份的运行总和(正如您在两点下方所要求的那样)。这个想法是首先生成event和的所有组合year- 甚至是数据集中不存在的组合。这可以通过函数CJ(用于交叉连接)来完成。这将为 eachevent创建所有year.

setkey(dt, event, year)
d1 = CJ(event=unique(dt$event), year=min(dt$year):max(dt$year))

现在,我们join用NAdt填充缺失值。V1

d1 = dt[d1]

现在我们有了一个包含 和 的所有组合的数据eventyear。从这里开始,我们现在必须找到一种方法来执行滚动求和。为此,我们再次创建另一个数据集,其中包含所有前 10 年的每一年,如下所示:

window_size = 10L
d2 = d1[, list(window = seq(year-window_size, year-1L, by=1L)), by="event,year"]

对于每个“事件,年份”,我们创建一个新列window,它将生成前 10 年。

现在,我们要做的就是key适当地设置列并执行 ajoin以获得相应的“V1”值。

setkey(d2, event, window) ## note the join here is on "event, window"
setkey(d1, event, year)

ans = d1[d2]

现在,我们有了每个“事件、窗口”组合的“V1”值。我们所要做的就是按“event,year.1”聚合(“year.1”之前是“year”,“year”ans之前是“window”)。在这里,我们要考虑的条件是,如果任何年份 < 1980,那么总和应该是 NA。这是通过使用一个小技巧来完成的,TRUE | NA = TRUE并且FALSE | NA = NA.

q1 = ans[, sum(V1, na.rm=TRUE) * (!any(year < 1980) | NA), by="event,year.1"]

q1[event == "K" & year.1 == "2005"]
#    event year.1 V1
# 1:     K   2005 25

对于你的第二个问题:

重复与上述相同的操作,window_size = 15L而不是 10L,然后起床直到ans。然后,我们可以这样做:

q2 = ans[!is.na(V1)][, .N, by="event,year.1"]

q2[event == "A" & year.1 == 1997]
#    event year.1  N
# 1:     A   1997 14

这是正确的,因为dt从 1982 年到 1995 年都有所有年份,而 1996 年缺失,因此不计入 => N=14,因为它应该是这样。

于 2014-05-06T22:37:44.340 回答