1

我正在尝试拟合 Cox Proportional Hazard 模型来分析抗议事件的数量对不同国家不同政体存活率的影响。

我的数据集看起来类似于:

Country    year  sdate        edate      time  evercollapsed protest GDPgrowth
Country A  2003  1996-11-24   2012-12-31 5881  0             78      14.78
Country A  2004  NA           NA         NA    0             99       8.56
Country A  2005  NA           NA         NA    0             25       3.56
Country B  2003  2000-10-26   2011-05-21 3859  1             13       2.33   
Country B  2004  NA           NA         NA    1             28       5.43
Country B  2005  NA           NA         NA    1             7        1.89  

因此,基本上我的数据集提供了有关每年许多变量的年度信息,但是有关政权的开始和结束日期以及生存时间(以天为单位)的信息仅在每个给定政治政权的第一行中提供.

我的数据包括 48 个不同政治政权的信息,其中 15 个在我正在查看的时间跨度内崩溃。

我为 Cox PH 模型安装了生存包:

myCPH <- coxph(Surv(time, evercollapsed) ~ protest + GDPgrowth, data = mydata)  

这给了我以下结果:

Call:
coxph(formula = Surv(time, evercollapsed) ~ protest + GDPgrowth, 
    data = mydata)

              coef exp(coef) se(coef)     z     p
protest    0.01630   1.01644  0.00722  2.26 0.024
GDPgrowth -0.03447   0.96612  0.01523 -2.26 0.024

Likelihood ratio test=9.26  on 2 df, p=0.00977
n= 48, number of events= 15 
   (556 observations deleted due to missingness)

因此,这些结果意味着我正在失去 556 个国家年,因为我的数据框中的行不包括有关政权生存时间的信息。

我现在的问题是,如何将国家年份包括在不提供日期、日期和时间信息的分析中?

我想,如果我只是复制每个国家/地区的信息,这会增加我的政权垮台的次数吗?

我假设我必须为每个给定的政治制度提供一个唯一的 ID,以确保 R 可以区分不同的情况。那么,我必须如何拟合在分析中包含不同国家/地区信息的 Cox PH 模型?

提前谢谢了!

4

0 回答 0