注意:使用 LSH 进行最近邻查询
假设数据集有 5 个特征 (f1,f2,..,f5),其中前 2 个是数字,3 个是分类。这些类别中的一个或多个可能是用户名或主题之类的,编码起来会非常大。
如果我们使用混合距离作为距离度量并在哈希函数中使用它应该是什么或如何为函数选择随机投影?
如果我必须更改 HashFunction 就可以了。
样本数据
f1,f2,f3,f4,f5
89,43,aa,bq,wb
23,67,cd,zd,cs
98,32,aa,wb,cc
10,20,aq,zd,wb