0
library(survival)
library(survminer)
library(dplyr)


ovarian=ovarian
ovarian$weighting = sample(1:100,26,replace=T)

fitWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian,weight=weighting)
fitNOWEIGHT <- coxph(Surv(futime, fustat) ~ age + rx,data=ovarian)

在上面的示例中,fitWEIGHT 的 R-Squared 值等于 1。但是,没有假样本权重的相同模型的 R-Squared 小于一半 (0.5)。为什么会这样?

4

1 回答 1

0

这里的加权有效地重复了观察。您正在使用ovarian$weighting = sample(1:100,26,replace=T)分布在您的基础数据集中的完美分布的随机样本来计算权重。因此,根据正态分布的权重重新观察每组数据点可能会使函数产生偏差,以确保您的因变量和自变量之间的完美相关性。它可能不是完全相关的,但 1:100 的范围可能会将其超出默认有效位数,因此它会四舍五入为 1。如果您将样本更改为 1:10 或 40:50 或其他可能的值继续推动相关偏差,但将 r2 减少到接近-1,而不是您现在在当前加权策略下看到的四舍五入到 1 的值。

有关此函数权重的其他讨论,请参见下文。为确保您指定的权重是您期望用于此分析的权重类型。它实际上是在对观察计数进行加权(即,一种对您分配权重的观察进行过度/重新采样的形式)。https://www.rdocumentation.org/packages/survival/versions/2.43-3/topics/coxph

它在哪里声明:

案例权重 案例权重被视为复制权重,即案例权重为 2 相当于拥有该受试者观察的 2 个副本。当计算机变得更小时,将对象分组在一起是一种常用的节省内存的技巧。例如,将所有权重设置为 2 将给出相同的系数估计值,但将方差减半。当使用 Efron 近似值(默认)时,数据的复制不会给出与权重选项完全相同的系数,在这种情况下,加权拟合可以说是正确的。

当模型包含集群项或 robust=TRUE 选项时,计算的方差将任何权重视为抽样权重;在这种情况下,将所有权重设置为 2 将给出与权重 1 相同的方差。

于 2019-03-03T18:19:08.533 回答