我运营的网站存在用户发布重复内容的问题。因此,当访问者搜索内容时,它会返回一些看起来完全相同的结果。
问题是重复的内容不是抄送。可能会在这里和那里更改一个词,或者几天后会发布,但不需要额外的结果,因为它们本质上是重新发布。
一个例子是:
标题:出售裤子 描述:我正在出售一条裤子。他们身上有洞。在 1234 上联系罗伯
标题:出售裤子 描述:我正在出售一条裤子。他们有一些洞。联系罗伯
标题:出售我的裤子 描述:我正在出售一条裤子。他们身上有洞。在 1234 上联系罗伯
是否有某种形式的算法(最好是内置在 PHP 中并且速度很快)可以准确地找出这些重复项?它将搜索大约 50 个项目的结果集,每个项目最多包含 500 个字符的文本。
编辑:我还应该补充一点,类似的结果可能并不相邻,所以我不能简单地将当前结果与前一个结果进行比较。在理想的世界中,它将类似于 SELECT title, desc FROM database WHERE id IN (10,40,54,143,444) AND UNIQUE(title,desc) > 90%。