我有兴趣评估通过无监督聚类发现的聚类标签的可预测性。假设我有一个由患者组成的数据集,并且我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了 4 个集群。现在,我想知道这个集群成员是否可以从表达式数据中预测出来。使用全数据无监督集群标签作为输出变量,我以交叉验证的方式训练监督分类器。因此,我使用 80% 的数据训练分类器,并评估另外 20% 的准确度。
这种方法是否有偏差,因为输出集群标签是从完整数据中学习的?如果是,我怎样才能以公正的方式做到这一点?如果我以交叉验证的方式进行聚类,我认为我需要手动关联每个不同折叠之间的聚类。由于我对四个集群中的一个集群与其他集群的可预测性特别感兴趣,因此我必须通过某种手动分析找出数据的每个折叠集群中哪个集群。