我已经阅读了很多关于 MinHash LSH 的实现,但我不明白输出结果。
例如,在这里,为什么所有的值都是负数?怎么可能?它是如何计算的?
在我的程序中,我只有一个 100 行的表和另一个 200 行的表,在 RegexTokenizer 和 NGram(n=3) 之后,MinHashLSH 输出列充满了 -2580000000、-1808000058 等值。
另一个例子 :
+---+--------------------+------------------+
| id| keys| lsh|
+---+--------------------+------------------+
| 0|(6,[0,1,2],[1.0,1...|[[-1.253971669E9]]|
| 1|(6,[2,3,4],[1.0,1...|[[-1.691699495E9]]|
| 2|(6,[0,2,4],[1.0,1...|[[-1.691699495E9]]|
+---+--------------------+------------------+
提前致谢!