根据我的数据,我一直在使用HDBSCAN
并拥有数百个集群。我正在尝试选择一些集群组进行进一步分析。寻找具有高集群间距离的集群,因为它比集群的其他部分更分散并且表现得有点离群。到目前为止,我正在使用 ( -1
) 集群类别,但意识到cluster.probabilities_
这些集群是0
. 我需要这个值进行进一步分析。
我的问题是:
cluster.probabilities_
score 对集群有什么影响?- 有没有什么办法(除了选择
-1
集群类别)我可以选择其他一些可能存在异常值的集群?就像计算集群间距离或其他方式一样?