0

我有一个非常大的数据框,其中包含如下数据:

  PENR     ANFDAT     ENDDAT
1 1110 1990-02-01 1998-10-29
2 1981 1998-02-19 1998-02-20
3 6317 1994-11-01 1999-06-30
4 2039 1998-12-01 1999-04-30

(从这里获取)

df <- structure(list(PENR = c(1110L, 1981L, 6317L, 2039L), ANFDAT = structure(c(7336, 10276, 9070, 10561), class = "Date"), ENDDAT = structure(c(10528, 10277, 10772, 10711), class = "Date")), .Names = c("PENR", "ANFDAT", "ENDDAT"), row.names = c(1L, 2L, 3L, 4L), class = "data.frame")

ANFDAT 代表某个状态的开始,ENDDAT 代表这个状态的终止

我想将此数据显示为条形图。每个条应该代表一个日期。每个条的高度应代表在该日期具有状态的记录数 (PENR)。

由于数据框非常大,我寻找一种有效的方法来实现这一点。

[编辑]

似乎我的问题具有误导性。这是我尝试做的事情:

  1. min(df$ANFDAT)为从到的每个日期生成一个数据框max(df$ENDDAT)。这可以很容易地完成

    df1 <- data.frame(DATE = seq(min(df$ANFDAT), max(df$ENDDAT), by = "day"))
    
  2. 对于 中的每一行,计算具有和df1$DATE的记录数。将结果存储在dfANFDAT >= DATEENDDAT <= DATEdf1$RECORDS
  3. 生成一个条形图df1。这可能可以这样做(未经测试)

    df2 <- df1$RECORDS
    row.names(df2) <- df1$DATE
    barplot(df2$RECORDS)
    

我的问题是找到一种有效的方法来做#2

4

1 回答 1

2

您可以使用sapply超过唯一日期来计算记录数。

整个过程:

DATE <- seq.int(min(df$ANFDAT), max(df$ENDDAT), by = "day")

df1 <- data.frame(RECORDS = sapply(DATE, function(x)
                                sum(df[["ANFDAT"]] <= x &  df[["ENDDAT"]] >= x)))

rownames(df1) <- DATE
barplot(df1$RECORDS)
于 2012-12-06T09:03:00.073 回答