0

我有一个场景:我有一些 GPS 轨迹(经度、纬度)的数据,这些数据包含在 2 个部分中

第一部分包含作为旅程站的数据(经度和纬度)(这些是实际坐标,必须在巴士开始旅程时访问它们)

第二部分包含 GPS 坐标(经度和纬度),但可能是第一部分的 2 倍。每次巴士开始行程时,它都会停止这些车站(已给出坐标)。我想比较那辆公共汽车是否完成了它的旅程,或者不是通过比较它访问过的 GPS 站(实时坐标)与第一部分(预定坐标)。

但我的问题:

我在第二部分几乎有双坐标,所有坐标都非常接近,几乎 5-8 个坐标代表同一个站点..(例如 104578,105888)和(104579,105890)

什么是正确和可能的方式来宣布某些坐标代表同一个电台。这个问题可能可以通过某种方式使用 K 最近邻或 K 均值来解决。

这个问题似乎没有很好的定义..但我认为在查询时我会尝试解释更多。

4

3 回答 3

1

您可以将空间索引与 lat lng 对一起使用。然后,您可以在曲线上寻找接近点并将它们组合在一起。空间索引通常是空间填充曲线或四叉树。它使用四键来索引 2 维并将其减少到 1 维。它还保留了一些空间信息,可以用于许多事情。在 Nick 的空间索引四叉树 hilbert 博客中了解更多信息。

于 2012-11-25T18:13:27.443 回答
0

可能使用缓冲区创建第二部分坐标的凸包多边形,因此它需要更大的区域,因此您可以考虑 GPS 错误并在多边形搜索中进行点。

或者只是使用以预定点为中心的半径距离。

于 2012-11-25T16:20:21.193 回答
0

您是否考虑过使用简单的阈值方法?即合并一定距离内的坐标?看起来你很能选择这样的阈值。

聚类的问题在于它会尝试发现数据集中的结构。

您似乎感兴趣的是简单合并一定距离内的对象。没有你想发现的“结构”。您想要进行预处理,而不是聚类。

于 2012-11-25T19:06:50.640 回答