0

注意:使用 LSH 进行最近邻查询

假设数据集有 5 个特征 (f1,f2,..,f5),其中前 2 个是数字,3 个是分类。这些类别中的一个或多个可能是用户名或主题之类的,编码起来会非常大。

如果我们使用混合距离作为距离度量并在哈希函数中使用它应该是什么或如何为函数选择随机投影?

如果我必须更改 HashFunction 就可以了。

样本数据

f1,f2,f3,f4,f5
89,43,aa,bq,wb
23,67,cd,zd,cs
98,32,aa,wb,cc
10,20,aq,zd,wb
4

1 回答 1

0

您可以尝试将分类特征转换为虚拟特征。您可以检查以下选项:

  • 编码,像这样
  • 如果您有数据框,很简单

希望能帮助到你。

于 2015-06-24T09:25:28.673 回答