0

我已经阅读了很多关于 MinHash LSH 的实现,但我不明白输出结果。

例如,在这里,为什么所有的值都是负数?怎么可能?它是如何计算的?

使用 MinHashLSH 的结果示例

https://databricks.com/fr/blog/2017/05/09/detecting-abuse-scale-locality-sensitive-hashing-uber-engineering.html

在我的程序中,我只有一个 100 行的表和另一个 200 行的表,在 RegexTokenizer 和 NGram(n=3) 之后,MinHashLSH 输出列充满了 -2580000000、-1808000058 等值。

另一个例子 :

+---+--------------------+------------------+
| id|                keys|               lsh|
+---+--------------------+------------------+
|  0|(6,[0,1,2],[1.0,1...|[[-1.253971669E9]]|
|  1|(6,[2,3,4],[1.0,1...|[[-1.691699495E9]]|
|  2|(6,[0,2,4],[1.0,1...|[[-1.691699495E9]]|
+---+--------------------+------------------+

提前致谢!

4

0 回答 0