machine-learning - 无监督学习中的训练/测试拆分是否必要/有用？

Question

在监督学习中，我有典型的训练/测试拆分来学习算法，例如回归或分类。关于无监督学习，我的问题是：训练/测试拆分是否必要且有用？如果是，为什么？

score 3 · Accepted Answer

这取决于问题、数据集的形式和用于解决特定问题的无监督算法类别。

粗略地说：- 降维技术通常通过计算重构中的误差来测试，因此我们可以使用 k 折交叉验证程序

但在聚类算法上，我建议进行统计测试以测试性能。拆分数据集并用有意义的类手动标记测试集并进行交叉验证也几乎没有什么耗时的技巧

在任何情况下，对有监督的数据使用无监督算法，那么它总是很好的交叉验证

总体：- 没有必要在训练测试集中拆分数据，但如果我们能做到，那总是更好

score 1 · Accepted Answer

绝对是有用的。

关于“为什么”，我知道的几点。

当测试一个模型进入故事时，它应该总是在看不见的数据上执行。因此，最好使用 train_test_split 吐出数据。

第二种情况是数据应该总是在格式中打乱。否则，在拟合模型时会出现 n-1 类数据，可能不会给出好的结果。

2 回答 2