我们正在尝试在 R 中重现加速故障时间 (aft) 模型的结果,该模型已在 SAS 中编码。
我们使用的数据集在这里
在那里您也可以找到 SAS 代码。
formula <- survreg(Surv(Duration, Censor) ~ Acq_Expense + Acq_Expense_SQ + Ret_Expense + Ret_Expense_SQ + Crossbuy + Frequency + Frequency_SQ + Industry + Revenue + Employees, dist='weibull', data = daten [daten$Acquisition==1, ])
out1 <- survreg(formula = formula, data = daten [daten$Acquisition==1, ], dist = "weibull")
summary(out1)
ind <- c("Duration", "Censor")
err.mat <- ???
out2 <- simexaft(formula = formula, data = daten [daten$Acquisition==1, ], SIMEXvariable = ind, repeated = FALSE, err.mat = err.mat, dist = "weibull")
summary(out2)
我们的问题是如何定义 err.mat 术语?err.mat 指定具有测量误差的变量。由于我们的数据集是正确删失的,我认为具有测量误差的变量可能是 Duration 和/或 Censor。但并不是那么简单,err.mat 必须是一个对称的平方数字矩阵。