我正在尝试找到将集合(哈希集、列表)中的单词与文档(如文章、博客)进行比较以查找匹配单词的最佳方法。
例如 - 我有以下单词集合
Old
Man
Lazy
Dog
如果我需要搜索的文件是
A dog is man's best friend
输出应该是
dog, man
文档可能包含超过 1000 多个单词。
最简单的方法如下
HasSet {Collection} = {Old, Man, Lazy, Dog}
for each {word} in the {document}
if the Collection contains {word}
return {word}
else
continue
是否有更有效的方法来执行文本搜索?对于这种方法来说,后缀树不是矫枉过正吗?我面临的挑战是输入的单词文档可能有 1000-5000 个单词长,而集合是 9000 个单词的列表