1

我是一个初学者,尝试使用机器学习对肺癌数据集进行生存分析。我知道如何使用 Cox 比例风险模型进行生存分析。Cox 比例风险模型为我们提供了风险比,它只是回归系数的指数。我想知道,我们是否可以使用机器学习来做同样的事情。作为初学者,我正在尝试survivalsvm使用 R 语言。请参阅此链接。我正在使用内置的癌症数据进行生存分析。以下是此链接中给出的 R 代码。

library(survival)
library(survivalsvm)

set.seed(123)
n <- nrow(veteran)
train.index <- sample(1:n, 0.7 * n, replace = FALSE)
test.index <- setdiff(1:n, train.index)
survsvm.reg <- survivalsvm(Surv(diagtime, status) ~ ., 
                            subset = train.index, data = veteran,
                            type = "regression", gamma.mu = 1,
                            opt.meth = "quadprog", kernel = "add_kernel")
print(survsvm.reg)
pred.survsvm.reg <- predict(object = survsvm.reg,
                             newdata = veteran, subset = test.index)
print(pred.survsvm.reg)

谁能帮我得到这个数据集的风险比或生存曲线?另外,如何解释这个函数的输出

4

1 回答 1

0

这个问题现在有点老了,但无论如何我都会回答,因为这是一个难题,当我第一次使用它时,我遇到了 {survivalsvm}。

因此,根据type参数,您会得到不同的输出。在您的情况下type = "regression",意味着您正在绘制 Shivaswamy 的(希望我拼写正确)SVCR,它预测事件发生的时间,所以这些是生存时间预测。

为了将其转换为生存曲线,您必须对生存分布的形状做出一些假设。例如,假设您认为生存时间是正态分布的N(mu, sigma)。然后,您可以使用预测的生存时间作为mu预测或假设sigma

下面是使用您的代码和我的 {distr6} 包的示例,它可以快速计算许多分布以及打印和绘制函数:

library(survival)
library(survivalsvm)
set.seed(123)
n <- nrow(veteran)
train.index <- sample(1:n, 0.7 * n, replace = FALSE)
test.index <- setdiff(1:n, train.index)
survsvm.reg <- survivalsvm(Surv(diagtime, status) ~ ., 
                           subset = train.index, data = veteran,
                           type = "regression", gamma.mu = 1,
                           opt.meth = "quadprog", kernel = "add_kernel")
print(survsvm.reg)
pred.survsvm.reg <- predict(object = survsvm.reg,
                            newdata = veteran, subset = test.index)


# load distr6
library(distr6)

# create a vector of normal distributions each with
# mean as the predicted time and with variance 1
# `decorators = "ExoticStatistics"` adds survival function
v = VectorDistribution$new(distribution = "Normal",
                       params = data.frame(mean = as.numeric(pred.survsvm.reg$predicted)),
                       shared_params = list(var = 1),
                       decorators = "ExoticStatistics")
# survival function evaluated at times = 1:10
v$survival(1:10)
# plot survival function for first individual
plot(v[1], fun = "survival")
# plot hazard function for first individual
plot(v[1], fun = "hazard")
于 2020-12-17T17:49:32.367 回答