0

我对处理文本数据相当陌生。

我有一个包含大约 300,000 个唯一产品名称的数据框,我正在尝试使用 k 方法将相似的名称聚集在一起。我使用 sklearn 的 tfidfvectorizer 对名称进行矢量化并转换为 tf-idf 矩阵。

在将其转换为稀疏矩阵后,我将 k 均值与 5-10 个集群拟合,但我不知道我是否正在收敛。

我怎么能弄清楚这个?

4

1 回答 1

1

根据来源,该属性n_iter_应包含 k 均值迭代次数。如果n_iter_ < max_iter,则算法收敛在给定的容差内。

如果您要完成的是确定最佳聚类数,则可以使用带属性的肘部方法。inertia_

于 2016-08-06T16:43:42.977 回答