我有大量的字符串说 N ,我必须从中找出相似的字符串集。
例子 :
输入:
输出:
programmable
stackover
tree
stackoverflow
trie
program
oddoneout
set 1:
programmable
program
set 2:
stackoverflow
stackover
set 3:
tree
trie
set 4:
oddoneout
那么,什么应该是有效algorithm
的(在空间和时间上)?
1)使用 levenshtein 距离是一个好方法,但我们仍然需要为每个字符串搜索所有 n-1 个字符串。
2)使用 trie 可能很好(就前缀而言),但不是最好的方法,因为它无法比较像 al orithmg
和 al q
kefgjwfjfwfkvfvjs 这样的字符串,它们根本不相似。
similarity of 2 strings:
1) the less the number of different characters in both , more similar are they
2)one string can be converted/transformed into another by just changing , adding some characters in one or both strings
请分享您的观点。
请不要发布有关外部软件等的信息。