我有 200,000 个字符串。我需要在该集合中找到相似的字符串。我希望集合中类似字符串的数量非常少。请帮助提供有效的数据结构。
如果我正在寻找完全匹配的字符串,我可以使用简单的哈希。但是,在我的情况下,“相似性”是自定义定义的:如果两个字符串中 80% 的字符相同,则两个字符串被视为相似,顺序无关紧要。
我不想调用查找“相似性”~(200k*100k) 次的函数。欢迎任何建议,例如预处理字符串的技术,高效的数据结构。谢谢。
我有 200,000 个字符串。我需要在该集合中找到相似的字符串。我希望集合中类似字符串的数量非常少。请帮助提供有效的数据结构。
如果我正在寻找完全匹配的字符串,我可以使用简单的哈希。但是,在我的情况下,“相似性”是自定义定义的:如果两个字符串中 80% 的字符相同,则两个字符串被视为相似,顺序无关紧要。
我不想调用查找“相似性”~(200k*100k) 次的函数。欢迎任何建议,例如预处理字符串的技术,高效的数据结构。谢谢。