他们在技术上做了两件不同的事情。
min_samples
= 核心点的最小邻居数。这越高,越多的点将被丢弃为噪声/异常值。这是来自 HDBScan 的 DBScan 部分。
min_cluster_size
= 最终集群的最小大小。这个值越高,你的集群就越大。这是来自 HDBScan 的 H 部分。
增加min_samples
会增加集群的大小,但这样做是通过使用 DBSCAN 将数据丢弃为异常值来实现的。
min_cluster_size
相比之下,在保持较小的同时增加会min_samples
保留那些异常值,而是将任何较小的集群与其最相似的邻居合并,直到所有集群都高于min_cluster_size
。
所以:
- 如果您想要许多高度特定的集群,请使用 small
min_samples
和 small min_cluster_size
。
- 如果您想要更通用的集群但仍想保留大部分细节,请使用 small
min_samples
和 largemin_cluster_size
- 如果您想要非常非常一般的集群并丢弃集群中的大量噪音,请使用 large
min_samples
和 large min_cluster_size
。
(不可能使用大于 min_cluster_size 的 min_samples,afaik)