1

我正在尝试找到将集合(哈希集、列表)中的单词与文档(如文章、博客)进行比较以查找匹配单词的最佳方法。

例如 - 我有以下单词集合

Old
Man
Lazy
Dog

如果我需要搜索的文件是

A dog is man's best friend

输出应该是

dog, man

文档可能包含超过 1000 多个单词。

最简单的方法如下

HasSet {Collection} = {Old, Man, Lazy, Dog}

for each {word} in the {document}
    if the Collection contains {word}
       return {word}
    else
       continue

是否有更有效的方法来执行文本搜索?对于这种方法来说,后缀树不是矫枉过正吗?我面临的挑战是输入的单词文档可能有 1000-5000 个单词长,而集合​​是 9000 个单词的列表

4

0 回答 0