我在 hive 中为空间数据库创建表,我知道空间数据有特殊的索引,它们是 R-tree。在蜂巢中创建空间索引是不可能的(我认为)。我正在考虑尝试为 x、y(long、lat)、带小数的连续变量创建索引。我认为这不是最有效的。
我们将 esri 库用于空间代数,但在某些情况下查询性能很差。
我刚在想 ....
是为这两个变量创建索引,还是通过 xi = int(x/0.2) * 0.2, yi = int(y/0.2) * 0.2 类型的变量对表进行分区更好?
我认为表分区更高效,但设计更复杂的查询,我也认为分区不支持带小数的数值变量
最典型的带有边界框的查询将是一系列空间数据。任何人都知道一种有效的方法来构造这种查询的配置单元数据?
有没有一种方法可以在 hive 中创建和实现 R-tree?可以用小数对连续值的表进行分区吗(我看过很多例子,好像没有)?