我对处理文本数据相当陌生。
我有一个包含大约 300,000 个唯一产品名称的数据框,我正在尝试使用 k 方法将相似的名称聚集在一起。我使用 sklearn 的 tfidfvectorizer 对名称进行矢量化并转换为 tf-idf 矩阵。
在将其转换为稀疏矩阵后,我将 k 均值与 5-10 个集群拟合,但我不知道我是否正在收敛。
我怎么能弄清楚这个?
我对处理文本数据相当陌生。
我有一个包含大约 300,000 个唯一产品名称的数据框,我正在尝试使用 k 方法将相似的名称聚集在一起。我使用 sklearn 的 tfidfvectorizer 对名称进行矢量化并转换为 tf-idf 矩阵。
在将其转换为稀疏矩阵后,我将 k 均值与 5-10 个集群拟合,但我不知道我是否正在收敛。
我怎么能弄清楚这个?