假设我有一个包含 250 个单词的列表,其中可能包含自始至终的唯一条目,或者所有语法形式的一堆单词,或者特定语法形式的各种单词(例如,所有过去时)。我还有一个文本语料库,它被方便地分成了一个部分的数据库,每个部分可能有 150 个单词(也许我想在将来动态地确定这些部分,但我暂时不考虑它)。
我的问题是:什么是从包含我的 250 个单词中的大部分的语料库中取出这些部分的有用方法?
我查看了一些全文搜索引擎,例如 Lucene,但不确定它们是为处理长查询列表而构建的。布隆过滤器似乎也很有趣。我对 Perl 感觉最舒服,但如果 Ruby 或 Python 有什么花哨的东西,我很乐意学习。在这一点上,性能不是问题。
这种程序的用例是在语言教学中,如果有各种各样的单词列表来反映学习者的不同程度的知识,并从原始来源快速找到合适的文本或示例,那就太好了。另外,我只是想知道如何做到这一点。