5

我是 PostgreSQL 新手,我的问题类似于这里的问题:link

例如,我有下表:

| id |       vector         |
|  1 |  { 1.43, 3.54, 5.55} |
|  2 |  { 4.46, 5.56, 4.55} |
|  3 |  { 7.48, 2.54, 4.55} |
|  4 |  { 2.44, 2.34, 4.55} |

一个示例查询,类似于

SELECT * FROM my_table WHERE vector CLOSEST('{1.23, 4.43, 4.63}') 

应该以排序方式返回结果行,其中我使用自定义距离函数确定“最接近”的向量,例如 calc_l2norm( double precision[], double precision[] ),它返回欧几里得距离。

4

2 回答 2

6

一般来说,您可以通过使用用 Java 或 Scala(有些人可能更喜欢 PL/SQL、C 或 C++)编写的存储函数来解决这类问题。

PostgreSql 支持(基于 Java 的)存储函数,因此让 SQL 查询获取数据,并将其传递给存储函数。存储的函数返回距离,因此您可以对其进行过滤/排序等。

基于这样的表

create table point(vector float8[]);
insert into point values('{0.0, 0.0, 0.0}');
insert into point values('{0.5, 0.5, 0.5}');

使用这样的 Java 函数:

public class PlJava {
    public final static double distance2(double[] v1, double[] v2) {
        return Math.sqrt(Math.pow(v2[0] - v1[0], 2)
          + Math.pow(v2[1] - v1[1], 2) + Math.pow(v2[2] - v1[2], 2));
    }
}

和 SQL 中的函数声明:

CREATE FUNCTION pljava.distance2(float8[], float8[])
  RETURNS float8
  AS 'PlJava.distance2'
  IMMUTABLE
  LANGUAGE java;

您的查询可能如下所示:

select
    point.*, 
    pljava.distance2(vector, '{1.0, 1.0, 1.0}') as dist
  from
    point 
  order by
    dist;    

这导致

    vector     |       dist  
---------------+-------------------  
 {0.5,0.5,0.5} | 0.866025403784439  
 {0,0,0}       |  1.73205080756888  

更新

存储函数也可以用 C 和 C++ 编写。C++ 需要更多的努力,因为 PostgreSql 的接口使用 C 调用约定。请参阅使用 C++ 实现可扩展性

于 2013-06-18T15:35:18.210 回答
1

PostgresQL 具有最近邻索引功能

http://wiki.postgresql.org/wiki/What%27s_new_in_PostgreSQL_9.1#K-Nearest-Neighbor_Indexing

它可以与 PostgreSQL 或 PostGIS 一起使用,是 PostgreSQL 的 GIS 扩展。看

PostGIS中的K最近邻查询

于 2013-06-18T16:23:45.427 回答