0

sklearn中的K-means聚类,聚类的数量是预先知道的(它是2)。有多种功能。特征值最初没有分配任何权重,即它们被同等加权。然而,任务是为每个特征分配自定义权重,以获得最佳的聚类分离。如何确定每个特征的最佳样本权重(sample_weight),以获得两个集群的最佳分离?如果这对于 k-means 或 sklearn 是不可能的,我对任何替代聚类解决方案感兴趣,关键是我需要自动确定多元特征的适当权重的方法,以最大化聚类分离。

4

1 回答 1

0

同时,我已经实现了以下操作:分别对每个组件进行聚类,然后分别计算每个组件(特征)的轮廓分数、calinski harabasz 分数、dunn 分数和逆 davies bouldin 分数。然后将这些分数缩放到相同的大小,然后将它们 PCA 缩放为 1 个特征。这为每个组件生成了权重。这种方法似乎产生了合理的结果。我想更好的方法是全因子实验(DOE),但似乎这种简单的方法也能产生令人满意的结果。

于 2021-01-11T15:45:12.317 回答