问题标签 [minhash]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
37 浏览

python-3.x - 如何制作带状疱疹 x Docs 的布尔矩阵?

我必须制作一个 [所有文档中的唯一瓦片集] x [文档 ID] 的布尔矩阵。到目前为止,我有一个名为allshinglesU的列表,其中包含所有文档中所有唯一的带状疱疹集。我还有一个名为docsAsShingleSetsW的键值字典,它以文档 ID 作为键,在该文档中找到的 shingle 集作为值。如何制作一个布尔矩阵来识别文档 n 上是否出现了唯一的瓦片集?

这是我到目前为止的进展:

0 投票
0 回答
16 浏览

python - 每次执行后最小哈希向量相似度都在变化

我正在实施 min-hash 来比较两个文本文档。我为两个文档创建了长度为 128 的向量,但由于随机数,每次重新执行代码时,我都会得到不同的 Jaccard 相似性。那么我怎样才能每次都得到相同的 Jaccard 相似度呢?是的,我不能使用种子来重现随机数。

我使用的 Minhash 公式是 h(x) = (a * val + b) % prime Random Hash Eq 系数 a 和 b 是随机选择的小于 x 最大值的整数。c 是一个比 x 的最大值稍大的素数。

0 投票
1 回答
27 浏览

python - 在 Python 中计算加权 Jaccard 指数的最佳方法

我有一个构建为稀疏加权矩阵的数据集,我想为下游分组/聚类计算加权 Jaccard 索引,灵感来自以下文章:http ://static.googleusercontent.com/media/research.google.com/en //pubs/archive/36928.pdf

在寻找在 Python 中进行上述计算的最佳方法时,我遇到了一个小问题。我目前检验我的假设的功能如下:

from scipy.spatial.distance import pdist然后我通过传递我定义的函数来提供这个weighted_jaccard_index

w_j = pdist(X, weighted_jaccard_index)

但并不奇怪我看到了很大的性能问题。我目前正在研究将 MinHash 与datasketch包一起使用,但我很高兴就如何最好地实现这一点提出意见。我认为这样的事情是可能的:

可能在 Numpy 中使用矢量化,但我不确定如何表达它。

数据的大小为 20k 观测值和 30 维(NxM = 20.000x30)。