1

我一直在阅读有关局部敏感散列的文献,并且我认为对它的工作原理有很好的理解。考虑到单个哈希表的最简单情况,其中每个文档仅在一个存储桶中,我的问题是:

如何找到 k 大于该桶中文档数的 k 最近邻居?

我已经看到了几种方法来实现这一点。有些使用前缀树其他人则按它们的汉明距离对所有桶进行排序。

我的限制:

我的文档 ID与它们各自的存储桶一起存储在PostgreSQL中。表扫描来计算每个桶的汉明距离是不可行的(我有数亿个文档)。我的桶哈希可能是24 位或 32 位(除非有人反对)。有没有人有关于如何进行的经验或建议的方法?

4

0 回答 0