我有以下情况:
String a = "网络爬虫是一种自动浏览万维网互联网的计算机程序"; String b = "Web Crawler 计算机程序浏览万维网";
是否有任何想法或标准算法来计算相似度的百分比?
例如,上述情况,通过手动查找估计的相似度应该是 90%++。
我的想法是标记两个字符串并比较匹配的标记数量。类似于 (7 个令牌 /1 0 个令牌) * 100。但是,当然,这种方法根本无效。比较匹配的字符数似乎也无效....
任何人都可以提供一些指导吗???
以上是我的项目抄袭分析器的一部分。
因此,匹配的单词将完全相同,没有任何同义词。
在这种情况下,唯一的问题是如何计算一个相当准确的相似度百分比。
非常感谢您的帮助。