cluster-analysis - 如何在句子嵌入上应用聚类？

Question

我想用原始文档的要点创建一个摘要。为此，我使用通用句子编码器（https://tfhub.dev/google/universal-sentence-encoder/2）制作了句子嵌入。之后，我想对我的向量应用聚类。

我试过图书馆sklearn：

import numpy as np
from sklearn.cluster import KMeans

n_clusters = np.ceil(len(encoded)**0.5)
kmeans = KMeans(n_clusters=n_clusters)
kmeans = kmeans.fit(encoded)

但我收到一条错误消息：

'numpy.float64' object cannot be interpreted as an integer'

score 1 · Accepted Answer

问题是在这一行引起的：

n_clusters = np.ceil(len(encoded)**0.5)

kmeans期望收到一个integer集群的数量，所以只需添加：

n_clusters = int(np.ceil(len(encoded)**0.5))

cluster-analysis - 如何在句子嵌入上应用聚类？

1 回答 1

Related