0

我需要将 pHashes (phash.org) 与汉明距离函数进行比较。

我尝试了 pg_similarity 中的那个,但它似乎不能正常工作。(相同的 pHash 的汉明距离不为 0)。

所以我想我只需要使用 c 扩展来使用ph_hamming_distancepHash 库中的函数。

我有什么:phash.c

#include <postgres.h>
#include <pHash.h>
#include <fmgr.h>
#include <utils/bytea.h>
#include <utils/datum.h>

#ifdef PG_MODULE_MAGIC
PG_MODULE_MAGIC;
#endif

PG_FUNCTION_INFO_V1(phash_hamming);
Datum phash_hamming(PG_FUNCTION_ARGS) {

    bytea *bytea1 = PG_GETARG_BYTEA_P(0);
    bytea *bytea2 = PG_GETARG_BYTEA_P(1);
    //FIXME - length of bytea1 & bytea2 must be 4 bytes (64bits)

    ulong64 long1 = *((ulong64*) bytea1);
    ulong64 long2 = *((ulong64*) bytea2);

    int32 ret = ph_hamming_distance(long1, long2);

    PG_RETURN_INT32(ret);
}

生成文件

CXXFLAGS=-I/usr/include/postgresql/server
LDFLAGS=-Bstatic -lpHash
all: phash.o

phash.o:
    $(CXX) $(CXXFLAGS) -fpic -c phash.c
    $(CXX) $(LDFLAGS) -shared -o phash.so phash.o

install:
    cp phash.so `pg_config --pkglibdir`

clean:
    rm -f phash.o phash.so

SQL

 CREATE FUNCTION phash_hamming (bytea1 bytea, bytea2 bytea) RETURNS int AS '$libdir/phash' LANGUAGE C;

我得到的错误:

ERROR:  could not load library "/usr/lib/postgresql/phash.so": /usr/lib/postgresql/phash.so: undefined symbol: _Z16pg_detoast_datumP7varlena

我一定不能以某种方式链接到 postgresql 吗?

4

2 回答 2

2

这是一个老问题,但是...

  1. 无需添加额外的包装文件并使用 gcc 进行编译。
  2. 您需要 extern "C" PostgreSQL 标头和 PostgreSQL 宏。

    extern "C" {
      #include <postgres.h>
      #include <fmgr.h>
      #ifdef PG_MODULE_MAGIC
      PG_MODULE_MAGIC
      #endif
    }
    
于 2015-06-20T20:28:36.017 回答
1

我仍然相信可能有更好的方法,但这就是我所做的。

(我将添加范围检查,而不是仅仅假设所有 bytea 都是 4 字节......最终,在生产中留下潜在的段错误会很糟糕,所以这只是一个玩具项目是一件好事)

phash.c - 纯 C 文件,用 gcc 编译

#include <postgres.h>
#include <fmgr.h>
#include <utils/bytea.h>
#include <utils/datum.h>

//typedef unsigned __int64 ulong64;
#if defined(_MSC_VER) || defined(__BORLANDC__)
typedef unsigned __int64 ulong64;
#else
typedef unsigned long long ulong64;
#endif

extern int32 c_ph_hamming_distance (ulong64 b1, ulong64 b2);

#ifdef PG_MODULE_MAGIC
PG_MODULE_MAGIC;
#endif

PG_FUNCTION_INFO_V1(phash_hamming);
Datum phash_hamming(PG_FUNCTION_ARGS) {

    bytea *bytea1 = PG_GETARG_BYTEA_P(0);
    bytea *bytea2 = PG_GETARG_BYTEA_P(1);
    //FIXME - length of bytea1 & bytea2 must be 4 bytes (64bits)

    ulong64 long1 = *((ulong64*) bytea1);
    ulong64 long2 = *((ulong64*) bytea2);

    int32 ret = c_ph_hamming_distance(long1, long2);

    PG_RETURN_INT32(ret);
}

phash_wrapper.cpp - 使用 c 链接而不是 cpp 链接转换 ph_hamming_distance 的版本(使用 g++ 编译)

#include <pHash.h>
extern "C" {
    int c_ph_hamming_distance (ulong64 b1, ulong64 b2){
        return ph_hamming_distance(b1, b2);
    }
}

生成文件

CFLAGS=-I/usr/include/postgresql/server
LDFLAGS=-lpHash
all: phash.so

phash_wrapper.o: phash_wrapper.cpp
    $(CXX) $(CXXFLAGS) -fpic -c phash_wrapper.cpp

phash.o: phash.c
    $(CC) $(CFLAGS) -fpic -c phash.c

phash.so: phash.o phash_wrapper.o
    $(CC) $(LDFLAGS) -shared -o phash.so phash.o phash_wrapper.o

install:
    cp phash.so `pg_config --pkglibdir`

clean:
    rm -f phash.o phash.so phash_wrapper.o

SQL - 相同

CREATE FUNCTION phash_hamming (bytea1 bytea, bytea2 bytea) RETURNS int AS '$libdir/phash' LANGUAGE C;
于 2012-08-07T04:16:06.163 回答