在 SOM 中收集和组织数据后,如何识别集群?
(项目使用许多特征进行聚合和聚类 - 超过 10 个)
具体来说,我想找到集群的“中心” - 因此给我“中心”节点。
在 SOM 中收集和组织数据后,如何识别集群?
(项目使用许多特征进行聚合和聚类 - 超过 10 个)
具体来说,我想找到集群的“中心” - 因此给我“中心”节点。
您可以使用相对较小的地图并将每个节点视为一个集群,但这远非最佳。如果您想应用自动集群检测方法,您绝对应该阅读
并搜索类似的参考书目。
您还可以使用更复杂的 SOM 算法版本(多层次、自增长等)。
无论如何,请记住,找到“正确”数量的集群的问题没有有限的解决方案。
据我所知,SOM 主要是一种数据驱动的降维和数据压缩方法。所以它不会为你聚集数据;它实际上可能倾向于在投影中散布簇(即将它们分成多个单元格)。
但是,它可能适用于某些数据集:
然后对转换后的数据运行常规聚类算法。
虽然一个老问题我遇到了同样的问题,并且我已经成功地实现了 Estimating the Number of Clusters in Multivariate Data by Self-Organizing Maps,所以我想我会分享。
链接算法使用 U 矩阵突出显示各个集群的边界,然后使用称为分水岭的图像处理算法来识别组件。为了使其正常工作,u 矩阵中的区域需要在量化的分辨率范围内是凹的(当转换为二进制图像时,只会导致使用填充来识别区域)。