我有 200 万个字符串,我需要在 1 TB 的文本数据中搜索每个字符串。搜索所有这些并不是最好的解决方案,所以我正在考虑一种更好的方法来为所有字符串创建像 trie 这样的数据结构。换句话说,其中的每个节点都是一个单词的 trie。我想问一下,是否有任何好的算法、数据结构或库(在 C++ 中)用于此目的?
让我在这个问题上更具描述性,伙计们,
例如,我有这些字符串: s1-“我爱你” s2-“你好吗” s3-“怎么了伙计”
我有很多文本数据,例如:t1-“嗨,我叫 Omid,我喜欢电脑。你们好吗?” t2-“你的每一个愿望都会实现,他们告诉我......” t3 t4 。. . t10000
然后我想考虑每个文本并搜索它们上的每个字符串。最后,对于这个例子,我只想说:t1 包含 s1,没有别的。我正在寻找一种有效的方法来搜索字符串,但不是每次都愚蠢地搜索它们。