我正在使用来自 sklearn 和 HDBSCAN 的 dbscan 对一些文档进行聚类。
vectorizer = TfidfVectorizer(stop_words=mystopwords)
X = vectorizer.fit_transform(y)
dbscan = DBSCAN(eps=0.75, min_samples = 9)
clusters = dbscan.fit_predict(X)
现在我怎样才能获得每个集群中的顶级术语?使用 kmeans 时,我们会执行以下操作:
order_centroids = kmeans_model.cluster_centers_.argsort()[:, ::-1]
for i in range(true_k):
print("Cluster %d:" % i),
for ind in order_centroids[i, :true_k]:
print(' %s' % terms[ind])
但是在 dbscan 和 hdbscan 中,我们没有质心。我们如何在 dbscan 或 hdbscan 的集群中找到排名靠前的术语?