machine-learning - 聚类标签的无偏预测

Question

我有兴趣评估通过无监督聚类发现的聚类标签的可预测性。假设我有一个由患者组成的数据集，并且我使用无监督聚类技术根据他们的基因表达谱对他们进行分组。我的方法发现了 4 个集群。现在，我想知道这个集群成员是否可以从表达式数据中预测出来。使用全数据无监督集群标签作为输出变量，我以交叉验证的方式训练监督分类器。因此，我使用 80% 的数据训练分类器，并评估另外 20% 的准确度。

这种方法是否有偏差，因为输出集群标签是从完整数据中学习的？如果是，我怎样才能以公正的方式做到这一点？如果我以交叉验证的方式进行聚类，我认为我需要手动关联每个不同折叠之间的聚类。由于我对四个集群中的一个集群与其他集群的可预测性特别感兴趣，因此我必须通过某种手动分析找出数据的每个折叠集群中哪个集群。

score 1 · Accepted Answer

老实说，整个问题似乎不正确。如果您有一种算法（聚类技术）可以构建一些数据分区，那么它总是可以通过监督方法进行预测。事实上，根据所使用的集群家族的知识——可以提出完美的分类器（准确率接近 100%）。您应该重新考虑问题陈述。特别是，每个聚类技术都可以通过添加一些关于哪些元素必须放置在同一聚类中的约束来转换为分类器。因此，如果您使用 clusterer C，则可以简单地转换C为半监督方法，该方法必须根据给定的标签对训练集中获得的元素进行聚类。这样我们几乎始终创建完全相同的标签，从而实现 100% 的准确度。

创建有效假设的唯一方法是由某个专家分配这些标签，因为这样我们就无法构建“有约束的专家”的分类器。所以上面的推理会失败。换句话说 - 如果您想测试某些标签是否可以以监督方式预测，您需要以难以建模的方式（例如人类专家、自然、物理、实验、昂贵的数值评估）获取这些标签，而不是像集群模型这样简单的东西，因为监督学习的重点是找到这个底层模型。如果这个模型是事先知道的（不是算法本身，而是我们），那么整个推理是不正确的。您只会回答以下问题：

是通过选择的聚类技术分析的模型族，类似于所使用的分类器的假设空间族。

或者更正式的

使用的分类器与在考虑的数据集上运行的所选聚类算法引起的分布一致。

machine-learning - 聚类标签的无偏预测

1 回答 1

Related

Reference