我正在尝试拟合 Cox Proportional Hazard 模型来分析抗议事件的数量对不同国家不同政体存活率的影响。
我的数据集看起来类似于:
Country year sdate edate time evercollapsed protest GDPgrowth
Country A 2003 1996-11-24 2012-12-31 5881 0 78 14.78
Country A 2004 NA NA NA 0 99 8.56
Country A 2005 NA NA NA 0 25 3.56
Country B 2003 2000-10-26 2011-05-21 3859 1 13 2.33
Country B 2004 NA NA NA 1 28 5.43
Country B 2005 NA NA NA 1 7 1.89
因此,基本上我的数据集提供了有关每年许多变量的年度信息,但是有关政权的开始和结束日期以及生存时间(以天为单位)的信息仅在每个给定政治政权的第一行中提供.
我的数据包括 48 个不同政治政权的信息,其中 15 个在我正在查看的时间跨度内崩溃。
我为 Cox PH 模型安装了生存包:
myCPH <- coxph(Surv(time, evercollapsed) ~ protest + GDPgrowth, data = mydata)
这给了我以下结果:
Call:
coxph(formula = Surv(time, evercollapsed) ~ protest + GDPgrowth,
data = mydata)
coef exp(coef) se(coef) z p
protest 0.01630 1.01644 0.00722 2.26 0.024
GDPgrowth -0.03447 0.96612 0.01523 -2.26 0.024
Likelihood ratio test=9.26 on 2 df, p=0.00977
n= 48, number of events= 15
(556 observations deleted due to missingness)
因此,这些结果意味着我正在失去 556 个国家年,因为我的数据框中的行不包括有关政权生存时间的信息。
我现在的问题是,如何将国家年份包括在不提供日期、日期和时间信息的分析中?
我想,如果我只是复制每个国家/地区的信息,这会增加我的政权垮台的次数吗?
我假设我必须为每个给定的政治制度提供一个唯一的 ID,以确保 R 可以区分不同的情况。那么,我必须如何拟合在分析中包含不同国家/地区信息的 Cox PH 模型?
提前谢谢了!