我有大量字符串(可能超过 1,000,000 个),我想搜索另一个字符串(文档)以查看其中哪些搜索字符串出现在文档中。
并不是所有的搜索字符串都是一个单词,所以这不仅仅是在搜索字符串列表中搜索文档中的每个单词的情况。
这样做最有效的方法是什么?
我将对大量文档(来自提要)执行此操作,并且需要以足够快的速度执行此操作,以便我可以比传入的文档更快地处理文档(理想情况下最多一两秒)。
我可能会想出一个不会出现在搜索字符串中的停用词列表(例如“the”、“and”)。
理想情况下,解决方案将使用 Java,但这不是必需的,因为我总是可以将代码移植到 Java 中。如果有任何区别,搜索字符串当前存储在 MongoDB 中。