0

我已经用 python 编写了代码来实现 DBSCAN 聚类算法。我的数据集由 14k 个用户组成,每个用户由 10 个特征表示。我无法决定究竟要保留什么作为 Min_samples 和 epsilon 的值作为输入我应该如何决定?相似性度量是欧几里得距离。(因此它变得更加难以决定。)任何指针?

4

1 回答 1

0

DBSCAN 通常很难估计其参数。

您是否考虑过 OPTICS 算法?在这种情况下,您只需要与最小集群大小相对应的 Min_samples。

否则,对于 DBSCAN,我过去通过反复试验完成了它:尝试一些值,看看会发生什么。要遵循的一般规则是,如果您的数据集嘈杂,您应该有一个更大的值,并且它还与维数相关(在这种情况下为 10)。

于 2012-04-14T17:15:10.860 回答