0

我试图集群生产机器的数据。我正在尝试 K-Means、DB-SCAN 和 OPTICS。使用所有算法,结果都非常糟糕(例如轮廓系数为 0.05)。

从我的观点来看,数据的方差非常低。我已经做了 PCA,前两个主要成分仅占数据集方差的 6%。下图显示了前两个主成分的直方图和散点图。

对于数据准备,我尝试了标准化、最小-最大缩放、具有方差阈值的特征选择 (sklearn)、单变量特征选择 (sklearn) 以及 PCA。结果并不令人满意。

所以我的问题是,您是否认为还有其他数据准备方法对我的整理有帮助。或者如果数据根本不适合进行聚类:D

感谢您的每一条评论!

前两个主要成分

具有两个功能的 K-Means++

具有五个特征的 K-Means++

4

0 回答 0