我有按国家、该国所在的半球(北部、南部、赤道)和季节(夏季、秋季、冬季、春季)的死亡数据。当然,任何给定的国家总是在同一个半球。目前数据是宽格式的(每一行对应不同的情况)。
我正在尝试为泊松回归重塑数据集,因此我需要每个国家/地区的四行(每个季节一个)和一个频率变量,代表该国家该季节发生的病例数。我还需要保持半球变量。
这是我尝试过的:
#three countries (A, B, C)
country = c(rep("A", 5), rep("B", 20), rep("C", 4))
#A is Northern, B and C are Equatorial
hemisphere = c(rep("Northern", 5), rep("Equatorial", 20), rep("Equatorial", 4))
#season of each occurrence
season = sample(c("Fall", "Winter", "Summer", "Spring"), size=29, replace=T)
fake = data.frame(country, hemisphere, season)
#almost works
fake2 = as.data.frame(table(fake$country, fake$season, fake$hemisphere))
结果的问题在于,我们得到 Freq=0 的行对应于 A 国、赤道等条件,因为这是一个不可能的条件。换句话说,不应该存在对应于不存在的国家-半球组合的行。我该如何解决?
提前致谢。