8

我想使用数据结构对时空数据(x、y、z、时间)进行排序。

目前,处理算法搜索一组 4D (x,y,z,time) 点,给定球面 (3d) 空间半径和线性 (1d) 时间半径,标记每个点,哪些其他点在这些半径内。原因是处理后,我可以在 O(1) 时间内询问任何 4D 点的所有邻居。

然而在一些常见的空间和时间半径配置中,算法的第一次运行大约需要 12 个小时。信不信由你,与我们行业中的现有产品相比,这实际上速度很快。不过,我想帮助加快初始运行速度,所以我想知道:kd-tree是否适合 4D 时空数据?

请注意,我不是在寻找最近邻搜索或 k-最近邻搜索的实现。

更多信息:

一个示例数据集有 450,000 个 4D 点。

一些数据集是时间密集的,因此按时间排序肯定会节省处理时间,但仍会导致许多距离检查。

时间由 Excel 样式的日期表示,典型范围在 30,000-39,000(大约)之间。空间范围有时是较高的值,有时是较低的值,但每个空间坐标之间的范围与时间相似(例如 maxX-minX ~ maxT-minT)。

更多信息:

我想我会添加一些稍微不相关的数据,以防有人处理过类似的数据集。

基本上,我正在处理表示由多个传感器记录和证实的时空事件的数据。涉及错误,因此仅包括满足错误阈值的事件。

这些数据集的时间跨度介于 5-20 年的数据之间。

对于真正的旧数据(> 8 年),事件通常在空间上非常密集,原因有两个:1)当时可用的传感器相对较少,2)传感器被放置在一起,以便附近的事件可以正确以低误差证实。可以记录更多事件,但它们的错误太高

对于较新的数据(<8 年),事件通常非常时间密集,原因恰恰相反:1)通常有许多传感器可用,2)传感器以固定间隔放置在更远的距离上。

因此,通常不能说数据集只有时间密集或空间密集(仅包含新数据的数据集除外)。

结论

我显然应该在这个网站上问更多问题。

我将在接下来测试几个解决方案,其中包括 4d kd-tree、3d kd-tree,然后是时间距离检查(由 Drew Hall 建议),以及我拥有的当前算法。另外,有人建议我使用另一种称为 TSP(时间空间分区)树的数据结构,它使用八叉树作为空间,在每个节点上使用 bsp 作为时间,所以我也可以对其进行测试。

假设我记得,我一定会发布一些关于不同时间/空间半径配置的分析基准。

谢谢大家

4

4 回答 4

6

要扩展我对上述答案的评论:

根据文献,kd-trees 需要具有欧几里得坐标的数据。它们可能不是绝对必要的,但它们肯定就足够了:保证所有坐标都是欧几里得,确保了正常的空间规则适用,并且可以通过它们的位置轻松划分点并建立树结构。

时间有点奇怪。根据狭义相对论的规则,当您使用时间坐标时,您使用的是 Minkowski 度量,而不是标准的欧几里得度量。这会导致各种问题(其中最严重的是破坏了“同时性”的含义),并且通常使人们害怕时间坐标。然而,这种恐惧并不是有根据的,因为除非你知道你正在研究物理学,否则你的时间坐标几乎可以肯定在实践中实际上欧几里得。

坐标是欧几里得意味着什么?它应该独立于所有其他坐标。说时间是欧几里得坐标意味着您可以回答“这两点在时间上是否靠近?”这个问题。只看他们的时间坐标,而忽略任何额外的信息。很容易看出为什么没有该属性可能会破坏按坐标值划分点的方案;如果两个点可以具有完全不同的时间坐标,但仍被认为是“时间上接近”,那么按时间坐标对它们进行排序的树就不会很好地工作。

欧几里得时间坐标的一个示例是在单个一致的时区(如 UTC 时间)中指定的任何时间。如果你有两个时钟,一个在纽约,一个在东京,你知道如果你有两个标记为“12:00 UTC”的测量值,那么它们是同时进行的。但是如果测量是在当地时间进行的,所以一个说“纽约时间 12:00”,一个是“东京时间 12:00”,你必须使用有关城市位置和时区的额外信息来计算两次测量之间经过了多少时间。

因此,只要您的时间坐标始终如一地测量和健全,它将是欧几里得,这意味着它可以在 kd-tree 或类似的数据结构中正常工作。

于 2009-04-25T02:57:32.250 回答
1

您还没有真正提供足够的信息来回答这个问题。

但是可以肯定的是,通常 kd-trees 非常适合 4(或 5 或 6 或...)维数据 --- 如果空间(或在您的情况下为空间/时间)分布适合 kd-tree 分解. 换句话说,这取决于(听起来很熟悉?)。

kd-trees 只是空间分解的一种方法,它适用于某些局部搜索。当你进入更高的维度时,维度问题的诅咒当然会抬头,但 4d 并不算太糟糕(你可能至少需要几百点)。

为了知道这是否适合您,您必须分析一些其他标准。近似 NN 搜索是否足够好(这很有帮助)。树平衡可能很昂贵吗?等等

于 2009-04-25T01:17:09.290 回答
1

如果您将索引存储在按时间维度排序的点上,您不能先在 1-d 时间维度中执行初始修剪,从而减少距离计算的次数吗?(或者这是过于简单化了?)

于 2009-04-25T01:24:18.277 回答
1

如果您的数据相对时间密集(并且空间相对稀疏),最好在空间维度上使用 3d kd-tree,然后简单地拒绝感兴趣的时间窗口之外的点。这将解决您的混合空间/时间度量问题,但代价是稍微复杂一点的点结构。

于 2009-04-25T01:51:22.347 回答