尝试将具有匹配关键字字段值和相关图像的阶段的相似文档组合在一起。目前,我有以下内容适用于完全匹配的阶段
'duplicate_docs':
A('terms',
script={
"lang":
"painless",
"inline":
"def term = doc['make'] + '' +doc['model'] + doc['province'] + doc['mileage'];return term+''+doc['image_hash'];"
}),
}, {'dup_docs': A('top_hits', size=20)}):
然而,有些图像略有不同,phash 的重点是您可以使用汉明距离来计算不同之处
我意识到这可能会使计算变得更加昂贵,因为本质上需要将每个图像与所有其他图像进行比较,这似乎过度但不确定我还能如何解决这个问题。谢谢