python - 具有 phash 汉明距离的 Elasticsearch 聚合

Question

尝试将具有匹配关键字字段值和相关图像的阶段的相似文档组合在一起。目前，我有以下内容适用于完全匹配的阶段

          'duplicate_docs':
        A('terms',
          script={
              "lang":
              "painless",
              "inline":
              "def term = doc['make'] + '' +doc['model'] + doc['province'] + doc['mileage'];return term+''+doc['image_hash'];"
          }),
    }, {'dup_docs': A('top_hits', size=20)}):

然而，有些图像略有不同，phash 的重点是您可以使用汉明距离来计算不同之处

我意识到这可能会使计算变得更加昂贵，因为本质上需要将每个图像与所有其他图像进行比较，这似乎过度但不确定我还能如何解决这个问题。谢谢

score 0 · Accepted Answer

你可能想试试这个：

Mu, C, Zhao, J.、Yang, G.、Yang, B. 和 Yan, Z.，2019 年 10 月。在全文搜索引擎的汉明空间中快速准确的最近邻搜索。在相似性搜索和应用国际会议上（第 49-56 页）。施普林格，湛。

上述论文提出的 FENSHSES 方法可以在不扫描所有文档的情况下有效地找到汉明空间中的所有 r 邻居。

python - 具有 phash 汉明距离的 Elasticsearch 聚合

1 回答 1

Related

Reference