15

我在 PostGIS 中使用以下最近邻查询:

SELECT g1.gid g2.gid FROM points as g1, polygons g2   
WHERE g1.gid <> g2.gid
ORDER BY g1.gid, ST_Distance(g1.the_geom,g2.the_geom)
LIMIT k;

现在,我已经在两个表的 the_geom 和 gid 列上创建了索引,这个查询比其他涉及空间连接 b/w 两个表的空间查询花费更多的时间。

有没有更好的方法来找到 K 近邻?我正在使用 PostGIS。

而且,尽管在几何列上创建了索引,但另一个查询却花费了异常长的时间:

select g1.gid , g2.gid from polygons as g1 , polygons as g2
where st_area(g1.the_geom) > st_area(g2.the_geom) ;

我相信,这些查询并没有从 gist 索引中受益,但为什么呢?

而这个查询:

select a.polyid , sum(length(b.the_geom)) from polygon as a , roads as b  
where st_intersects(a.the_geom , b.the_geom);

尽管涉及比多边形或点表大得多的“道路”表并且还涉及更复杂的空间运算符,但一段时间后返回结果。

4

5 回答 5

19

2011 年 9 月下旬以来,PostGIS 通过可用于 ORDER BY 子句的特殊运算符支持索引最近邻查询:

SELECT name, gid
FROM geonames
ORDER BY geom <-> st_setsrid(st_makepoint(-90,40),4326)
LIMIT 10;

...将以可扩展的方式返回geom最近的 10 个对象。-90,40该公告帖子中提供了更多详细信息(选项和警告),并且<-><#> 运算符的使用现在也记录在官方 PostGIS 2.0 参考中。(两者之间的主要区别在于<->比较形状质心并<#>比较它们的边界 - 点没有区别,其他形状选择适合您查询的形状。)

于 2012-07-13T23:11:14.843 回答
9

关于您的问题的一些想法:

st_distance 和 st_area 不能使用索引。这是因为这两个功能都不能归结为“a 在 b 中吗?”之类的问题。或“a 和 b 是否重叠?”。更具体的是:GIST 索引只能对两个对象的边界框进行操作。

有关这方面的更多信息,您可以查看postgis 手册,其中说明了 st_distance 的示例以及如何改进查询以更好地执行。

但是,这并不能解决您的 k 最近邻问题。为此,现在我不知道如何提高查询的性能。我看到的唯一机会是假设 k 最近的邻居总是在 x 米以下的距离内。然后您可以使用与 postgis 手册中类似的方法。

您的第二个查询可能会加快一点。目前,您计算表 1 中每个对象的区域的频率与表具有行的频率一样 - 策略是首先连接数据,然后根据该函数进行选择。您可以通过预先计算区域来显着减少区域计算的数量:

WITH polygonareas AS (
    SELECT gid, the_geom, st_area(the_geom) AS area
    FROM polygons
)
SELECT g1.gid, g2.gid
FROM polygonareas as g1 , polygonareas as g2 
WHERE g1.area > g2.area;

您的第三个查询可以使用边界框进行显着优化:当两个对象的边界框不重叠时,对象就没有办法重叠。这允许使用给定的索引,从而获得巨大的性能提升。

于 2012-05-05T12:11:49.550 回答
5

您可以使用 KNN 索引和横向连接来完成。

SELECT v.gid, v2.gid,st_distance(v.the_geom, v2.the_geom)
  FROM geonames v, 
       lateral(select * 
                 from geonames v2
                where v2.id<>v.id
                ORDER BY v.the_geom <-> v2.the_geom LIMIT 10) v2
where v.gid in (...) - or other filtering condition
于 2018-09-06T14:54:22.497 回答
1

您可能需要的是 KNN 索引,它有望很快在 PostGIS 2.x 和 PostgreSQL 9.1 中可用:参见http://blog.opengeo.org/tag/knn/

于 2012-05-07T23:00:59.517 回答
0

假设您有 p 点和 g 多边形,您的原始查询:

SELECT g1.gid, g2.gid FROM points as g1, polygons g2   
WHERE g1.gid <> g2.gid
ORDER BY g1.gid, ST_Distance(g1.the_geom,g2.the_geom)
LIMIT k;

正在返回 pxg 集中的 k 个最近邻居。该查询可能正在使用索引,但它仍然必须对整个 pxg 集进行排序才能找到距离最小的 k 行。您想要的是以下内容:

SELECT g1.gid, 
      (SELECT g2.gid FROM polygons g2   
       --prevents you from finding every nearest neighbour twice
       WHERE g1.gid < g2.gid 
       --ORDER BY gid is erroneous if you want to limit by the distance
       ORDER BY ST_Distance(g1.the_geom,g2.the_geom)
       LIMIT k)
FROM points as g1;
于 2015-01-08T20:48:12.440 回答