2

我正在尝试为最近邻搜索创建一个 forst,但我不确定我做对了,或者即使 MinHash / LSH 是否适合我的数据。我问这个是因为结果不可用。

我正在尝试按照文档中的示例进行操作。

我的数据:

512 个维度,例如值有点像 0 或 1 这实际上可用于 MinHash / LSH 吗?如果是,我将如何为每条记录构造 MinHash?

据我了解,minhash 的重点已经是将数据映射到这样的位结构?所以我可以把这些位加载进去吗?如h = MinHash(num_perm=512, hashvalues=listOfBits)?

4

1 回答 1

1

如果可以将单个数据记录描述为集合(例如,将文本文档描述为一组单词)并且此类记录之间的相似性由相应集合的 Jaccard 相似性描述,则 MinHash 是一种可以使用的技术。

如果你真的想应用 MinHash,你首先需要找到一种方法来表示你的大小为 512 的位向量。一种可能性是考虑值为 1 的位索引集。接下来,您需要考虑这些位索引集之间的 Jaccard 相似性是否真的有意义并适当地描述相似性。

于 2019-04-06T19:38:19.387 回答