我有一个字符串数据库(任意长度),其中包含超过一百万个项目(可能更多)。
我需要将用户提供的字符串与整个数据库进行比较,如果存在则检索相同的字符串,否则返回最接近的模糊匹配(60% 相似性或更好)。理想情况下,搜索时间应低于一秒。
我的想法是在根据长度缩小数据库中的候选者之后,使用编辑距离将每个数据库字符串与搜索字符串进行比较。
但是,由于我需要经常执行此操作,我正在考虑构建数据库字符串的索引以保存在内存中并查询索引,而不是直接查询数据库。
关于如何以不同方式解决此问题或如何构建内存索引的任何想法?