0

这些天我正在使用一些聚类算法,我只是想问一个与这个领域相关的问题。也许在这个领域工作的人已经有了这个答案。

在聚类期间,我需要一些要聚类的训练数据。迭代次数(例如 K-Means 算法)取决于训练数据的数量(向量的数量)。有什么方法可以从训练数据中找到最重要的数据。我的意思是:不是用所有数据训练 K-Means,也许有一种方法可以只找到重要的向量(那些影响最多集群的向量)并使用这些“重要”向量(来自训练数据)来训练算法。

我希望你能理解我。感谢您阅读并尝试回答。

4

1 回答 1

2

“训练”和“测试”数据是分类的概念,而不是聚类分析的概念。

K-means 是一种统计方法。如果你想加快速度,在足够大的随机样本上运行它应该会给你几乎相同的结果。

于 2013-03-13T10:06:50.823 回答