我有一个字符串数组,不多(可能几百个)但通常很长(几百个字符)。
这些字符串通常是无意义的,并且彼此不同。但在一组字符串中,可能有 300 个字符串中的 5 个,有很大的相似性。实际上它们是同一个字符串,不同的是格式、标点和几个单词。
我怎样才能算出那组字符串?
顺便说一句,我正在用 ruby 编写,但如果没有别的,伪代码中的算法就可以了。
谢谢
我有一个字符串数组,不多(可能几百个)但通常很长(几百个字符)。
这些字符串通常是无意义的,并且彼此不同。但在一组字符串中,可能有 300 个字符串中的 5 个,有很大的相似性。实际上它们是同一个字符串,不同的是格式、标点和几个单词。
我怎样才能算出那组字符串?
顺便说一句,我正在用 ruby 编写,但如果没有别的,伪代码中的算法就可以了。
谢谢