我认为这是一个长镜头......
我的数据库有以下字段:title, description, date, price, hash
目前,我像这样生成一个 MD5 哈希md5($title.$desc.$date.$price)
并将其放置在hash
每个项目的字段中,这样当一个新项目添加到数据库中时,我有一种简单且相当可靠的方式来了解具有相同详细信息的项目是否已经存在数据库。
我想做的是扩展这个,所以匹配过程有点模糊。原因是我在数据库中看到很多重复的项目,其中描述可能只有一两个字符不同,或者价格可能略有不同。
数据库很大(3mill 行)并且是 INNODB。如果这提供了一种在从搜索返回时过滤掉类似结果的方法,我也可以使用 Sphinx。