我正在尝试使用 Elasticknn 插件检测近乎重复的内容。
我创建了文本文档的 minhash,Minhash 设置大小 = 100
我想使用 Elasticknn 插件应用具有 Jaccard 相似性的 LSH(因为它有这种类型的索引可用,)
根据我对 LSH、Minhash 重复检测算法的了解,根据所需的 jaccard 相似度级别(比如 0.8),我们必须选择
- 桶数b和
- 桶大小r
Elastiknn 提供了一些不同的参数 https://elastiknn.com/api/#jaccard-lsh-mapping
- L - 哈希表的数量。一般来说,增加这个值会增加召回率。
- k - 组合成单个散列值的散列函数的数量
我不确定L和k是否实际上是b和r。
谁能解释如何从 Elastiknn 调整 L 和 k 以获得所需级别的 jaccard 类似文档的最大准确性?