0

我有一组电子邮件,其中包含提取的关键字数组和金属标签。我想在 python 中使用 HDBSACN 进行主题聚类,但我找不到任何示例,它是在 hdbscan 中使用的数据的正确格式。

class Mail(object):
    id = 1
    keywords = [("word1",0.45),("word2",0.36)...]
    metalabel = "metalabel"



hdbscan.HDBSCAN(min_cluster_size=5,
                              metric='euclidean',
                              cluster_selection_method='eom').fit(???)

我应该如何形成我的 Mail 类的列表来放置fit()方法?

4

0 回答 0