-4

我正在经营一家电子商务初创公司。我目前面临匹配多个商品的问题,因为它们是从卖家门户输入的。理想情况下,我会在用户搜索该项目时显示一个项目,而不是多次显示同一项目(每个来自具有不同详细信息页面/图片的不同卖家)。

此类似

作为这项工作的一部分,我正在考虑使用 NLP 来比较多个项目描述页面并将它们组合在一起。有人可以帮我指出可以匹配来自不同卖家的多个商品的描述内容的算法或库吗?

我们正在使用 Java,因此您可以建议的任何 API 都会有所帮助!

4

1 回答 1

2

作为这方面的研究人员,我只能建议您阅读Peter Christen 的数据匹配。它将指导您完成匹配过程,并介绍一些可以普遍使用的技术。

然而,整个问题有点困难,因为通用方法(倒排索引和一些相似性度量)表现不佳。您的数据集中会有很多误报匹配,这通常会变成匹配候选人的手动审查过程。由于这非常昂贵,通常使用分类器来区分好的匹配和不太好的或错误的匹配。但作为一家初创公司,你不会有很多训练数据来训练这样一个有监督的分类器。

以下是一些我发现在日常工作中非常有用的快速提示:

  • 期待很多垃圾(配件业务在电子商务中的产品方面是最大的,并且会破坏您的比赛)
  • 规范化你的数据,最好是根据你的数据库标准
  • 使用单词级模型而不是字符级模型(例如 Bigram 模型)
  • 使用产品名称和定价信息,所有其他属性通常是巨大的垃圾桶
于 2013-07-22T17:46:32.077 回答