0

我在我的网站上展示了大量的产品。我必须对来自不同网站的类似产品进行分组,这些产品已经爬入我的数据库。因此,当搜索产品时,它也会显示来自另一个网站的相同产品。

我尝试了以下方法

  1. 按产品名称分组

    结果 - 失败,因为 Sony Xperia Z, Sony Xperia Z( black ) 是同一个产品,但标题不同,所以不能在同一个组。所以错误率非常高。

  2. 按属性分组:

    具有相似属性和价值的产品被归为一组。但它的速度很慢,错误率也很高。由于来自不同公司的不同产品可能具有相同的属性。

这是最好的方法。请帮帮我。

在此先感谢。抱歉英语不好。

4

2 回答 2

0

您可以使用第一个字母和字典,然后使用 mysql 全文搜索并按相关性排序。问题不是很清楚。还有 leventhein 距离和 soundex() 函数。

于 2013-06-21T12:25:55.907 回答
0

我将尝试使用您的按标题分组解决方案,但使用 RegEx 进行了修改。或者只使用以下方法:

title1.contains(title2)

title1.startsWith(title2)

不可能有 100% 无错误的解决方案,所以我会添加这样的链接:“不是您的产品?单击此处”以暂时从该组中删除该产品并将其标记为“不确定”,以便您可以手动检查.

于 2013-06-21T09:56:03.637 回答