0

我有一个包含大量内容的网站,我正在努力删除重复项。为此,我需要比较两个字符串并检查它们的匹配百分比。我正在使用 ruby​​ simhash gem:https ://github.com/bookmate/simhash

gem 接受一个字符串并返回一个整数哈希。我不确定如何比较两个哈希值。

X = 'King Gillette'.simhash(:split_by => //)

y = 'King Camp Gillette'.simhash(:split_by => //) 

X >> 13716569836

y >> 13809628900

我可以先取差额再取百分比吗?这是否表明字符串之间的差异?

4

1 回答 1

0

如果您想删除这些字符串的重复项,或者您想要字符串之间的差异如果我说得对,那么您可以这样做......

>>a1='King Gillette'.split(" ")  
>>=> ["King", "Gillette"]  
>>a2='King Camp Gillette'.split(" ")  
>>=> ["King", "Camp", "Gillette"]  
>> a2-a1  
>>["Camp"]  
于 2013-09-19T08:01:58.817 回答