14

我有一个表 A,其中有一列“template_phash”。我存储从 400K 图像生成的 phash。

现在我拍摄一张随机图像并从该图像生成一个 phash。

现在我如何查询,以便我可以从表 A 中获取汉明距离差小于阈值的记录,比如 20。

我已经在 SQL 中看到二进制字符串的汉明距离,但无法弄清楚。

我想我发现我需要创建一个函数来实现这一点,但是如何实现呢?

我的两个 phash 都在 BigInt 中,例如:7641692061273169067

请帮我制作这个功能,以便我可以查询

SELECT product_id, HAMMING_DISTANCE(phash1,  phash2) as hd 
FROM A 
WHERE hd < 20 ORDER BY hd ASC;
4

1 回答 1

30

我发现汉明距离只是两个哈希之间不同位的计数。首先 xor 两个哈希然后得到二进制的计数:

SELECT product_id, BIT_COUNT(phash1 ^ phash2) as hd from A ORDER BY hd ASC;
于 2014-01-11T05:31:06.343 回答