text - 给定一个包含几十个单词的列表，我如何从数百个文本的语料库中找到最匹配的部分？

Question

假设我有一个包含 250 个单词的列表，其中可能包含自始至终的唯一条目，或者所有语法形式的一堆单词，或者特定语法形式的各种单词（例如，所有过去时）。我还有一个文本语料库，它被方便地分成了一个部分的数据库，每个部分可能有 150 个单词（也许我想在将来动态地确定这些部分，但我暂时不考虑它）。

我的问题是：什么是从包含我的 250 个单词中的大部分的语料库中取出这些部分的有用方法？

我查看了一些全文搜索引擎，例如 Lucene，但不确定它们是为处理长查询列表而构建的。布隆过滤器似乎也很有趣。我对 Perl 感觉最舒服，但如果 Ruby 或 Python 有什么花哨的东西，我很乐意学习。在这一点上，性能不是问题。

这种程序的用例是在语言教学中，如果有各种各样的单词列表来反映学习者的不同程度的知识，并从原始来源快速找到合适的文本或示例，那就太好了。另外，我只是想知道如何做到这一点。

score 1 · Accepted Answer

1 回答 1