0

我在弹性搜索中存储了许多带有 minhashed 字段(基于内容相似性)的文档。现在,我要么使用 Elasticsearch API 将它们相互比较以获得相似的(散列)文档,但我不能进行模糊查询,因为它只允许编辑距离为 2,因此无用。

如果不能在 Elasticsearch 中完成,我也在寻找可能的 Node.js 实现。我的第一种方法是检索 Elasticsearch 中每个文档的所有 id 和 minhash-values (=hex-strings),然后将它们存储在一个数组中并按字典顺序对它们进行排序。然后,我只需要根据编辑距离比较最近的邻居 k 文档,而不是

n*(n-1)/2比较,所以我只会n*k比较。您如何看待这种方法?

4

0 回答 0