我在一组 150 名患者中有 4000 个(连续)预测变量。首先,应确定与生存相关的变量。因此,我使用多重测试程序功能(http://svitsrv25.epfl.ch/R-doc/library/multtest/html/MTP.html)和 t 统计量来测试 Cox 比例风险生存模型中的回归系数,以识别重要的预测因子。该分析确定了与生存显着相关的 60 个参数。然后我使用 ConensusClusterPlus 包(https://www.bioconductor.org/packages/release/bioc/html/ConsensusClusterPlus.html),它根据 CDF 曲线和进展图将 3 个集群确定为最佳解决方案。然后,如果我执行 Kaplan-Meier 生存分析,我会发现三个集群中的每一个都与不同的生存模式(低/中/长生存)相关联。
我现在遇到的问题如下:假设我有另一组 50 名患者,我想预测每个患者最可能属于三个集群中的哪一个。我怎样才能做到这一点?我是否需要训练一个分类器(例如使用插入符号包(topepo.github.io/caret/bytag.html),其中具有 60 个重要参数的 150 名患者在训练集中,并且算法知道分配给哪个患者三个集群中的哪一个)并在 50 名新患者中验证分类器?然后进行 Kaplan-Meier 生存分析,看看验证集 (n=50) 中的预测聚类是否再次与不同的生存模式相关联?
谢谢你的帮助。