0

我一直在运行 sci-kit learn 的 DBSCAN 实现,以按纬度/经度对一组地理标记照片进行聚类。在大多数情况下,它工作得很好,但我遇到了一些令人费解的例子。例如,有两组照片,用户输入的文本字段指定照片是在中央公园拍摄的,但这些照片的纬度/经度没有聚集在一起。照片本身证实了他们两组观察结果都来自中央公园,但实际上纬度/经度之间的距离比epsilon.

经过一番调查,我发现这是因为纬度/经度地理标签(由手机的 GPS 生成)非常不精确。当我查看每张照片的定位精度时,我发现它们的范围很广(我已经看到了高达 600 米的误差范围),如果考虑到定位精度,这两组照片在以纬度/经度表示的附近距离。

当您进行 DBSCAN 时,有什么方法可以计算 lat/long 的误差范围?

注意:我不确定这个问题是否像它应该的那样清晰,所以如果我能做些什么来使它更清楚,请告诉我。)

4

1 回答 1

1

请注意,DBSCAN 实际上并不需要距离。

查找Generalized DBSCAN:它真正使用的是“是邻居”关系。

如果您确实需要包含不确定性,请查看各种 DBSCAN 变体和扩展,这些变体和扩展可以显式处理不精确的数据。但是,只需选择一个合理的 epsilon 阈值,您就可以获得几乎相同的结果。有选择您认为足够的更大 epsilon 的空间:如果您想使用 epsilon = 1km,并且假设您的数据在 100m 范围内不精确,那么请改用 1100m 作为 epsilon。

于 2013-08-30T16:15:48.220 回答