我目前正在学习如何在 sklearn 中使用 OPTICS。我正在输入一个 (205,22) 的 numpy 数组。我能够从中获得情节,但我不明白我如何从多个维度获得二维情节以及我应该如何阅读它。我或多或少地理解可达性图,但其余部分对我来说毫无意义。有人可以解释发生了什么。该函数是否只是以某种方式将数据简化为二维?谢谢
问问题
140 次
1 回答
1
来自 sklearn 用户指南:
OPTICS 生成的可达距离允许在单个数据集中对集群进行可变密度提取。如上图所示,结合可达距离和数据集 ordering_ 生成可达图,其中点密度表示在 Y 轴上,并且点被排序,使得附近的点相邻。在单个值处“切割”可达性图会产生类似 DBSCAN 的结果;“cut”上方的所有点都被归类为噪声,每次从左到右读取时出现中断都表示一个新的集群。
其他三个图是由三种不同算法找到的实际集群的直观表示。
正如您在 OPTICS 聚类图中看到的那样,有两个高密度聚类(蓝色和青色),由于 xi 值较低,根据可达性图的灰色十字被归类为噪声
在 eps = 0.5 的 DBSCAN 聚类中,由于 epsilon 值太低,算法找不到任何密度点,因此所有的东西都被认为是噪声。
现在很明显,在第三个图中,由于 epsilon 值的调整,算法只发现了一个集群,并且 2.0 线以上的所有内容都被认为是噪声。
请参阅用户指南:
于 2021-10-12T23:19:49.967 回答