2

我试图通过对它们进行聚类并找到聚类的中心点来减少空间数据集的大小。我参考了这篇文章(它使用DBSCAN了 ),除了现在数据集大小增加了,我现在无法处理内存错误的 b/c 之外,它有点帮助。所以,我切换到下一个最好的东西HDBSCAN。但是,我得到了一些奇怪的结果。首先,我使用以下内容:

clusterer = hdbscan.HDBSCAN(min_samples=1, min_cluster_size=25, algorithm='prims_balltree', metric='haversine')

这能够提供集群,但是当我深入研究这些集群时,它们实际上是相同的。例如,由相似地理位置组成的两个集群。我的想法是它应该是一个单一的集群。

其次,为了解决上述问题,我尝试使用在同一个集群cluster_selection_epsilon=0.1/6371中集群地理位置100m

clusterer = hdbscan.HDBSCAN(min_samples=5, min_cluster_size=10, metric='haversine',cluster_selection_epsilon=0.1/6371)

但是,然后我得到了一个包含十万多个点的大集群,并且在绘制时folium我发现这些点不在100m相距之内,而是它们是相距超过 100m 的单独的点集群。我可能没有使用min_cluster_size度量haversine标准。有人可以解释发生了什么。如何实现聚类相似地理位置的目标。并将集群缩小到一个中心点?

4

0 回答 0