我正在制作一个测验系统,当测验制作者将问题插入问题库时,我将检查数据库中是否存在重复/非常相似的问题。
测试 MySQL 的MATCH() ... AGAINST(),当我针对 100% 相似的字符串进行测试时,我得到的最高相关性是 30+。
那么相关性究竟是什么?引用手册:
相关性值是非负浮点数。零相关性意味着没有相似性。相关性是根据行中的单词数、该行中的唯一单词数、集合中的单词总数以及包含特定单词的文档(行)数来计算的。
我的问题是如果字符串重复,如何测试相关性值。如果它是 100% 重复的,请防止它被插入到问题库中。但如果只是如此相似,提示测验者验证,插入与否。那么我该怎么做呢?100% 相同字符串的 30+ 不是百分比,所以我很难过。
提前致谢。