我正在尝试使用 LSH 构建类似的产品,并且有以下查询。
我的数据具有以下架构
id: long,
title: string,
description: string,
category: string,
price: double,
inventory_count: int,
active: boolean,
date_added: datetime
我是否应该分别对单个特征执行 LSH,然后以某种方式组合它们,可能是加权平均?
或者
我是否应该一起在所有功能上构建 LSH(基本上在创建诸如 title_iphone、title_nexus、price_1200.25、active_1 之类的带状疱疹时附加功能名称)然后使用词袋方法在这个包上执行 LSH?
如果有人可以将我引导到一个文档,我可以在其中弄清楚如何对电子商务等结构化数据执行 LSH,那就太好了。
PS 我打算在 LSH 中使用 spark 和 min-hash 函数。如果您需要更多详细信息,请告诉我。