machine-learning - 无监督学习中的集成学习

Question

我有一个关于集成学习（更具体地说是无监督学习）的当前文献的问题。

对于我在文献中读到的内容，集成学习在应用于无监督学习时基本上恢复到聚类问题。但是，如果我有x 个输出分数的无监督方法（类似于回归问题），是否有一种方法可以将这些结果组合成一个结果？

score 3 · Accepted Answer

关于异常值排名和异常值分数的评估。
Schubert, E.、Wojdanowski, R.、Zimek, A. 和 Kriegel, HP（2012 年 4 月）。
在 2012 年 SIAM 国际数据挖掘会议论文集中（第 1047-1058 页）。工业和应用数学学会。

在本出版物中，我们不仅“标准化”了异常值分数，而且我们还建议了一种称为“贪婪集成”的无监督 集成成员选择策略。

然而，标准化是至关重要的，也是困难的。我们发布了一些关于分数归一化的早期进展

解释和统一异常值分数。
Kriegel, HP、Kroger, P.、Schubert, E. 和 Zimek, A.（2011 年 4 月）。
在 2011 年 SIAM 国际数据挖掘会议论文集中（第 13-24 页）。工业和应用数学学会。

如果你不标准化你的分数（并且最小-最大缩放是不够的），你通常无法以有意义的方式组合它们，除非有非常强的先决条件。由于具有不同数量的特征和不同的特征尺度，即使是两个不同的子空间通常也会产生无法比较的值。

还有一些关于半监督集成的工作，例如

学习离群值合奏：两全其美——有监督和无监督。
Micenková, B., McWilliams, B., & Assent, I. (2014)。
在 ACM SIGKDD 2014 年数据多样性 (ODD2) 下异常值检测和描述研讨会的会议记录中。美国纽约州纽约市（第 51-54 页）。

还要注意过度拟合。通过调整参数和反复评估很容易得到一个好的结果。但这会将评估信息泄漏到您的实验中，即您倾向于过度拟合。在大范围的参数和数据集上表现良好是非常困难的。以下研究的主要观察结果之一是，对于每种算法，您都会发现至少一个数据集和参数集，其中它“优于”其他算法；但是如果你稍微改变参数，或者使用不同的数据集，“优越”新方法的好处是无法重现的。

关于无监督异常值检测的评估：测量、数据集和实证研究。
Campos, GO, Zimek, A., Sander, J., Campello, RJ, Micenková, B., Schubert, E., ... & Houle, ME (2016)。
数据挖掘和知识发现，30（4），891-927。

因此，您必须非常努力地进行可靠的评估。注意如何选择参数。

machine-learning - 无监督学习中的集成学习

1 回答 1

Related

Reference