python - 如何确定 k 均值何时收敛于 tf idf？

Question

我对处理文本数据相当陌生。

我有一个包含大约 300,000 个唯一产品名称的数据框，我正在尝试使用 k 方法将相似的名称聚集在一起。我使用 sklearn 的 tfidfvectorizer 对名称进行矢量化并转换为 tf-idf 矩阵。

在将其转换为稀疏矩阵后，我将 k 均值与 5-10 个集群拟合，但我不知道我是否正在收敛。

我怎么能弄清楚这个？

score 1 · Accepted Answer

根据来源，该属性n_iter_应包含 k 均值迭代次数。如果n_iter_ < max_iter，则算法收敛在给定的容差内。

如果您要完成的是确定最佳聚类数，则可以使用带属性的肘部方法。inertia_

1 回答 1