python - LSH 使用的散列混淆

Question

MatrixM是签名矩阵，它是通过对实际数据进行 Minhashing 生成的，将文档作为列，将单词作为行。所以一列代表一个文档。

现在它说每个条带（b在数量上，r在长度上）都有其列的散列，因此一列落入桶中。如果两列落在同一个桶中，对于 >= 1 个条带，那么它们可能是相似的。

所以这意味着我应该创建b哈希表并找到b独立的哈希函数？或者只有一个就足够了，每个条带将其列发送到相同的桶集合（但这不会取消条带）？

在这种情况下，字典是否足以用于哈希表^*？

score 0 · Accepted Answer

我想我想通了，为未来的读者发帖。

我将使用一本字典，因为幻灯片提到可以对每个条带使用相同的哈希函数（字典就是这样做的）。

每个存储桶都将成为我们字典的键。

在插入时，一个文档（即属于一个条带的列）将由一个散列函数（我们将创建）传递，结果应该是一个键。这样我们的字典就会被填充。

1 回答 1