我有一个包含大量内容的网站,我正在努力删除重复项。为此,我需要比较两个字符串并检查它们的匹配百分比。我正在使用 ruby simhash gem:https ://github.com/bookmate/simhash
gem 接受一个字符串并返回一个整数哈希。我不确定如何比较两个哈希值。
X = 'King Gillette'.simhash(:split_by => //)
y = 'King Camp Gillette'.simhash(:split_by => //)
X >> 13716569836
y >> 13809628900
我可以先取差额再取百分比吗?这是否表明字符串之间的差异?