MatrixM
是签名矩阵,它是通过对实际数据进行 Minhashing 生成的,将文档作为列,将单词作为行。所以一列代表一个文档。
现在它说每个条带(b
在数量上,r
在长度上)都有其列的散列,因此一列落入桶中。如果两列落在同一个桶中,对于 >= 1 个条带,那么它们可能是相似的。
所以这意味着我应该创建b
哈希表并找到b
独立的哈希函数?或者只有一个就足够了,每个条带将其列发送到相同的桶集合(但这不会取消条带)?
在这种情况下,字典是否足以用于哈希表*?
MatrixM
是签名矩阵,它是通过对实际数据进行 Minhashing 生成的,将文档作为列,将单词作为行。所以一列代表一个文档。
现在它说每个条带(b
在数量上,r
在长度上)都有其列的散列,因此一列落入桶中。如果两列落在同一个桶中,对于 >= 1 个条带,那么它们可能是相似的。
所以这意味着我应该创建b
哈希表并找到b
独立的哈希函数?或者只有一个就足够了,每个条带将其列发送到相同的桶集合(但这不会取消条带)?
在这种情况下,字典是否足以用于哈希表*?
我想我想通了,为未来的读者发帖。
我将使用一本字典,因为幻灯片提到可以对每个条带使用相同的哈希函数(字典就是这样做的)。
每个存储桶都将成为我们字典的键。
在插入时,一个文档(即属于一个条带的列)将由一个散列函数(我们将创建)传递,结果应该是一个键。这样我们的字典就会被填充。