我有一个关于集成学习(更具体地说是无监督学习)的当前文献的问题。
对于我在文献中读到的内容,集成学习在应用于无监督学习时基本上恢复到聚类问题。但是,如果我有x 个输出分数的无监督方法(类似于回归问题),是否有一种方法可以将这些结果组合成一个结果?
我有一个关于集成学习(更具体地说是无监督学习)的当前文献的问题。
对于我在文献中读到的内容,集成学习在应用于无监督学习时基本上恢复到聚类问题。但是,如果我有x 个输出分数的无监督方法(类似于回归问题),是否有一种方法可以将这些结果组合成一个结果?
关于异常值排名和异常值分数的评估。
Schubert, E.、Wojdanowski, R.、Zimek, A. 和 Kriegel, HP(2012 年 4 月)。
在 2012 年 SIAM 国际数据挖掘会议论文集中(第 1047-1058 页)。工业和应用数学学会。
在本出版物中,我们不仅“标准化”了异常值分数,而且我们还建议了一种称为“贪婪集成”的无监督 集成成员选择策略。
然而,标准化是至关重要的,也是困难的。我们发布了一些关于分数归一化的早期进展
解释和统一异常值分数。
Kriegel, HP、Kroger, P.、Schubert, E. 和 Zimek, A.(2011 年 4 月)。
在 2011 年 SIAM 国际数据挖掘会议论文集中(第 13-24 页)。工业和应用数学学会。
如果你不标准化你的分数(并且最小-最大缩放是不够的),你通常无法以有意义的方式组合它们,除非有非常强的先决条件。由于具有不同数量的特征和不同的特征尺度,即使是两个不同的子空间通常也会产生无法比较的值。
还有一些关于半监督集成的工作,例如
学习离群值合奏:两全其美——有监督和无监督。
Micenková, B., McWilliams, B., & Assent, I. (2014)。
在 ACM SIGKDD 2014 年数据多样性 (ODD2) 下异常值检测和描述研讨会的会议记录中。美国纽约州纽约市(第 51-54 页)。
还要注意过度拟合。通过调整参数和反复评估很容易得到一个好的结果。但这会将评估信息泄漏到您的实验中,即您倾向于过度拟合。在大范围的参数和数据集上表现良好是非常困难的。以下研究的主要观察结果之一是,对于每种算法,您都会发现至少一个数据集和参数集,其中它“优于”其他算法;但是如果你稍微改变参数,或者使用不同的数据集,“优越”新方法的好处是无法重现的。
关于无监督异常值检测的评估:测量、数据集和实证研究。
Campos, GO, Zimek, A., Sander, J., Campello, RJ, Micenková, B., Schubert, E., ... & Houle, ME (2016)。
数据挖掘和知识发现,30(4),891-927。
因此,您必须非常努力地进行可靠的评估。注意如何选择参数。