0

我对 NLP/ML/模式匹配或识别相当陌生。我想知道根据标题、描述等匹配不同项目的最佳方法是什么。例如:

如果有 3 个项目:

item 1: Title: Belkin bluetooth headset USB - ABD13432
item 1: Description: This is a bluetooth device with the following specs: 
75 W power, 3.5 mm jack, etc
item 1: Model NO: ABD13432
item 1: UPC Code: 000000022221
item 1: product image: <img1>

item 2: Title: Belkin headset: 
item 2: Description: This is a device that works on RF, and has 2.5 mm jack with 25 W power 
item 2: Model No: 13432
item 2: UPC Code: 000022022221
item 2: product image: <img1>

item 3: Title: Belkin headset wireless - ABD 13432
item 3: Description: World's best headphone
item 3: Model No: ABD-13432 
item 3: UPC Code: 000000022221
item 3: product image: <img1>

第 1 项和第 3 项相同,第 2 项不同。如果它是同一个项目,UPC 代码通常是一个很好的指标,但问题是卖家可以输入他想要的任何 UPC 代码。但是图像匹配不一定是一个好的指标,因为卖家可以输入他想要的任何图像。

4

1 回答 1

0

在这种特殊情况下,型号和 UPC 显然比其他特征贡献了更多的权重。

当项目具有不同的 Model No 或 UPC 时,您可以考虑将短句的语义相似性作为您学习算法的另一个特征。

你可能想看看这篇论文。由于您的案例是在产品/电子商务领域,您可能希望建立自己的领域语料库,而不是使用一般的 wordnet。

于 2013-08-07T08:22:35.283 回答