elasticsearch - 在 elasticsearch 中使用 Minhash 令牌过滤器

翻译自：https://stackoverflow.com/questions/42819502 2017-03-15T19:56:27.310

647 次

bucket_count 设置对应什么？这是否意味着 minhashes 被进一步散列到 1 和 bucket_count-1 之间的值？

在以下情况下生成 minhashes 会导致任何加速吗？

案例：索引 1000 万个文档，其中每个文档只是一组特征索引。可能的索引总数为 10000。因此文档可能看起来像 A={1,5,7,500,750...9800} 此外，所有文档/集的长度都是固定的（假设是 196）。在这种情况下，检索与文档 A 最相似的文档意味着遍历所有 1000 万个文档以找到那些索引重叠最多的文档。

使用 minhashes 会加速上述相似度检索吗？这令人困惑的原因是原始文档/集都相当小——196 个特征。

默认存储桶大小为 528 的 Minhash 标记化将生成一个长度为 528 的标记集——比原始文档长（如上所述，为 196）

在这种情况下，minhash 真的会以任何方式帮助加快检索速度吗？

elasticsearch - 在 elasticsearch 中使用 Minhash 令牌过滤器

0 回答 0

Related

Reference