python - 确定 DBSCAN 算法的输入值

Question

我已经用 python 编写了代码来实现 DBSCAN 聚类算法。我的数据集由 14k 个用户组成，每个用户由 10 个特征表示。我无法决定究竟要保留什么作为 Min_samples 和 epsilon 的值作为输入我应该如何决定？相似性度量是欧几里得距离。（因此它变得更加难以决定。）任何指针？

score 0 · Accepted Answer

DBSCAN 通常很难估计其参数。

您是否考虑过 OPTICS 算法？在这种情况下，您只需要与最小集群大小相对应的 Min_samples。

否则，对于 DBSCAN，我过去通过反复试验完成了它：尝试一些值，看看会发生什么。要遵循的一般规则是，如果您的数据集嘈杂，您应该有一个更大的值，并且它还与维数相关（在这种情况下为 10）。

1 回答 1