我正在经营一家电子商务初创公司。我目前面临匹配多个商品的问题,因为它们是从卖家门户输入的。理想情况下,我会在用户搜索该项目时显示一个项目,而不是多次显示同一项目(每个来自具有不同详细信息页面/图片的不同卖家)。
与此类似
作为这项工作的一部分,我正在考虑使用 NLP 来比较多个项目描述页面并将它们组合在一起。有人可以帮我指出可以匹配来自不同卖家的多个商品的描述内容的算法或库吗?
我们正在使用 Java,因此您可以建议的任何 API 都会有所帮助!
我正在经营一家电子商务初创公司。我目前面临匹配多个商品的问题,因为它们是从卖家门户输入的。理想情况下,我会在用户搜索该项目时显示一个项目,而不是多次显示同一项目(每个来自具有不同详细信息页面/图片的不同卖家)。
与此类似
作为这项工作的一部分,我正在考虑使用 NLP 来比较多个项目描述页面并将它们组合在一起。有人可以帮我指出可以匹配来自不同卖家的多个商品的描述内容的算法或库吗?
我们正在使用 Java,因此您可以建议的任何 API 都会有所帮助!
作为这方面的研究人员,我只能建议您阅读Peter Christen 的数据匹配。它将指导您完成匹配过程,并介绍一些可以普遍使用的技术。
然而,整个问题有点困难,因为通用方法(倒排索引和一些相似性度量)表现不佳。您的数据集中会有很多误报匹配,这通常会变成匹配候选人的手动审查过程。由于这非常昂贵,通常使用分类器来区分好的匹配和不太好的或错误的匹配。但作为一家初创公司,你不会有很多训练数据来训练这样一个有监督的分类器。
以下是一些我发现在日常工作中非常有用的快速提示: