2

问题

给定具有和变量(除其他外)的n患者记录,我想获得他们在他们所处的时间段内的生存风险,即 2、4、6、8、10 年。timestatus

我有 24 - 47 个月(2 年)、48 - 83 个月(4 年)、84 - 107 个月(6 年)、108 - 119 个月(8 年)和 120 个月的部门——“最多可用”个月(10年)。

从个人的角度来看,一个生存月数为 30 个月的患者将被包括在两年期间内,并且与其他预测变量一起,我想知道该患者在两年内的生存风险。

我的方法

我正在使用此线程中描述的 R 代码检索我的数据的生存风险百分比。

km <- survfit(Surv(time, status)~1, data=mydata)
survest <- stepfun(km$time, c(1, km$surv))

time变量是生存月份,具有status10分别代表活着和死去。

代码输出如下内容(取自此处):

> survest(0:100)
 [1] 1.0000000 0.9854015 0.9781022 0.9708029 0.9635036 0.9635036 0.9635036
 [8] 0.9416058 0.9124088 0.9124088 0.8978102 0.8905109 0.8759124 0.8613139
 [15] 0.8613139 0.8467153 0.8394161 0.8394161 0.8175182 0.8029197 0.7883212
 [22] 0.7737226 0.7664234 0.7664234 0.7518248 0.7299270 0.7299270 0.7225540
 [29] 0.7225540 0.7151810 0.7004350 0.6856890 0.6856890 0.6783160 0.6783160

我的问题是:这些是我需要使用的 300,000 条个人记录的实际生存估计survest(0:300000)吗?我尝试过survest(0:1000),但结果已经收敛到某个值,这并不能解决我的问题。

4

1 回答 1

1

正如我在评论中提到的,我认为不可能获得个体患者的 KM 估计值。KM 估计器给出了在种群水平上某个时间点观察到的生存概率。然而,观察到的个体生存概率为 0(死亡)或 1(活着),两者之间没有任何关系。

您将不得不使用某种模型(例如 Cox PH、加速故障时间模型、神经网络等)来获得预测的生存概率,而不是观察到的生存概率。这些概率告诉您具有该特定变量组合的个体在特定时间点存活的风险。

更新:示例代码基于此处提供的 OP 代码

library(pec) ; library(rms)

# Simulate data
set.seed(1)
examp.data <- SimSurv(3000)

# fit a Cox model with predictors X1+X2
coxmodel <- cph(Surv(time,status)~X1+X2, data=examp.data, surv=TRUE) 

# predicted survival probabilities can be extracted at selected time-points:
ttt <- quantile(examp.data$time)
ttt
#          0%          25%          50%          75%         100% 
#6.959458e-03 9.505409e+00 3.077284e+01 7.384565e+01 7.100556e+02 

# Get predicted survival probabilities at selected time-points:
preds <- predictSurvProb(coxmodel, newdata=examp.data, times=ttt)

# Store in original data
examp.data$predict.surv.prob.Q1 <- preds[,1] # pred. surv. prob. at  0.006959458
examp.data$predict.surv.prob.Q2 <- preds[,2] # pred. surv. prob. at  9.505409
examp.data$predict.surv.prob.Q3 <- preds[,3] # pred. surv. prob. at  30.77284
examp.data$predict.surv.prob.Q4 <- preds[,4] # pred. surv. prob. at  73.84565
examp.data$predict.surv.prob.Q5 <- preds[,5] # pred. surv. prob. at  710.0556

现在,您可以预测数据中每个人在这 5 个时间点的生存概率。当然,您确实需要根据区分(例如使用cindexpec-package 中的函数)和校准(使用校准图,请参阅 rms-package)来评估模型的预测性能。

于 2013-12-19T11:26:33.247 回答