我经营一个照片网站,用户可以自由输入他们喜欢的任何标签,甚至是以前未使用过的标签。结果,标签的照片有时可能被标记为“昆虫”,而其他人则将其标记为“昆虫”。
我想保留免费标记功能,但希望有一种方法可以过滤掉这种近乎重复的内容。标签的总收藏量目前为 1,500 个。我的想法是将所有这些从数据库读入内存,然后在其上运行显示“嫌疑人”的算法。
我对嫌疑人的看法是字符串中 x% 的字符是相同的(相同的字符和顺序),其中 x 是可配置的。我可能可以编写一个非常低效的方法来做到这一点,但我想知道是否有解决这个问题的现有解决方案?
编辑:忘了提一下:仅仅对标签进行排序是不够的,因为这需要我遍历整个集合才能找到骗子。