1

我有一个数据集,其中包含从许多不同来源收集的数百万个项目。每个项目都包含从五十到一千个属性的列表。可用的特定属性因项目而异。

我正在寻找找到与集合中给定目标成员项目最相似的项目的最佳方法。(我显然想在不与集合中的所有项目进行蛮力比较的情况下完成此操作。)

我想使用类似 Locality Sensitive Hashing 和 MinHash 的东西。但是,如果目标项目有 50 个属性,而较大数据集中可能匹配的项目有 200 个,即使具有 200 个属性的项目包含目标项目的所有属性,MinHash 也会认为这些是不相似的。

用于比较具有不同数量属性的项目的最佳技术或算法是什么?

4

0 回答 0