0

我们正在尝试在 R 中重现加速故障时间 (aft) 模型的结果,该模型已在 SAS 中编码。

我们使用的数据集在这里

在那里您也可以找到 SAS 代码。

    formula <- survreg(Surv(Duration, Censor) ~ Acq_Expense + Acq_Expense_SQ + Ret_Expense + Ret_Expense_SQ + Crossbuy + Frequency + Frequency_SQ + Industry + Revenue + Employees, dist='weibull', data = daten [daten$Acquisition==1, ])
    out1 <- survreg(formula = formula, data = daten [daten$Acquisition==1, ], dist = "weibull")
    summary(out1)

    ind <- c("Duration", "Censor")

    err.mat <- ???

    out2 <- simexaft(formula = formula, data = daten [daten$Acquisition==1, ], SIMEXvariable = ind, repeated = FALSE, err.mat = err.mat, dist = "weibull")
    summary(out2)

我们的问题是如何定义 err.mat 术语?err.mat 指定具有测量误差的变量。由于我们的数据集是正确删失的,我认为具有测量误差的变量可能是 Duration 和/或 Censor。但并不是那么简单,err.mat 必须是一个对称的平方数字矩阵。

4

1 回答 1

1

如果您阅读Journal of Statistical Software,2012 年 1 月,第 46 卷,描述 simexaft 包的文章,很明显,在没有重复测量的情况下从数据中估计测量误差,您必须自己根据领域知识提供这些估计。请参见第 6-8 页中的示例。另请参阅易博士网站上引用的“医学统计学”文章。在该示例中,测量误差是前两个预测变量,收缩压 (SBP) 和血清胆固醇 (CHOL)。如果您使用的是从中提取数据的文本,那么您将需要阅读章节文本(该网站上似乎没有该文本)以确定他们对测量误差做出的假设。

于 2013-05-25T18:31:45.323 回答