cluster-analysis - 数据聚类 - 数据预处理

Question

这些天我正在使用一些聚类算法，我只是想问一个与这个领域相关的问题。也许在这个领域工作的人已经有了这个答案。

在聚类期间，我需要一些要聚类的训练数据。迭代次数（例如 K-Means 算法）取决于训练数据的数量（向量的数量）。有什么方法可以从训练数据中找到最重要的数据。我的意思是：不是用所有数据训练 K-Means，也许有一种方法可以只找到重要的向量（那些影响最多集群的向量）并使用这些“重要”向量（来自训练数据）来训练算法。

我希望你能理解我。感谢您阅读并尝试回答。

score 2 · Accepted Answer

“训练”和“测试”数据是分类的概念，而不是聚类分析的概念。

K-means 是一种统计方法。如果你想加快速度，在足够大的随机样本上运行它应该会给你几乎相同的结果。

cluster-analysis - 数据聚类 - 数据预处理

1 回答 1

Related

Reference