2

bucket_count 设置对应什么?这是否意味着 minhashes 被进一步散列到 1 和 bucket_count-1 之间的值?

在以下情况下生成 minhashes 会导致任何加速吗?

案例:索引 1000 万个文档,其中每个文档只是一组特征索引。可能的索引总数为 10000。因此文档可能看起来像 A={1,5,7,500,750...9800} 此外,所有文档/集的长度都是固定的(假设是 196)。在这种情况下,检索与文档 A 最相似的文档意味着遍历所有 1000 万个文档以找到那些索引重叠最多的文档。

使用 minhashes 会加速上述相似度检索吗?这令人困惑的原因是原始文档/集都相当小——196 个特征。

默认存储桶大小为 528 的 Minhash 标记化将生成一个长度为 528 的标记集——比原始文档长(如上所述,为 196)

在这种情况下,minhash 真的会以任何方式帮助加快检索速度吗?

4

0 回答 0