我有一组电子邮件,其中包含提取的关键字数组和金属标签。我想在 python 中使用 HDBSACN 进行主题聚类,但我找不到任何示例,它是在 hdbscan 中使用的数据的正确格式。
class Mail(object):
id = 1
keywords = [("word1",0.45),("word2",0.36)...]
metalabel = "metalabel"
hdbscan.HDBSCAN(min_cluster_size=5,
metric='euclidean',
cluster_selection_method='eom').fit(???)
我应该如何形成我的 Mail 类的列表来放置fit()
方法?