1

我正在使用来自 sklearn 和 HDBSCAN 的 dbscan 对一些文档进行聚类。

vectorizer = TfidfVectorizer(stop_words=mystopwords)
X = vectorizer.fit_transform(y)
dbscan = DBSCAN(eps=0.75, min_samples = 9)
clusters = dbscan.fit_predict(X)

现在我怎样才能获得每个集群中的顶级术语?使用 kmeans 时,我们会执行以下操作:

order_centroids = kmeans_model.cluster_centers_.argsort()[:, ::-1]
for i in range(true_k):
  print("Cluster %d:" % i),
  for ind in order_centroids[i, :true_k]:
      print(' %s' % terms[ind])

但是在 dbscan 和 hdbscan 中,我们没有质心。我们如何在 dbscan 或 hdbscan 的集群中找到排名靠前的术语?

4

0 回答 0