python - 如何在文本数据上使用 HDBSCAN？

问问题 2021-04-13T19:55:24.060

47 次

我有一组电子邮件，其中包含提取的关键字数组和金属标签。我想在 python 中使用 HDBSACN 进行主题聚类，但我找不到任何示例，它是在 hdbscan 中使用的数据的正确格式。

class Mail(object):
    id = 1
    keywords = [("word1",0.45),("word2",0.36)...]
    metalabel = "metalabel"



hdbscan.HDBSCAN(min_cluster_size=5,
                              metric='euclidean',
                              cluster_selection_method='eom').fit(???)

我应该如何形成我的 Mail 类的列表来放置fit()方法？

python - 如何在文本数据上使用 HDBSCAN？

0 回答 0

Related

Reference