2

假设我有一个包含 250 个单词的列表,其中可能包含自始至终的唯一条目,或者所有语法形式的一堆单词,或者特定语法形式的各种单词(例如,所有过去时)。我还有一个文本语料库,它被方便地分成了一个部分的数据库,每个部分可能有 150 个单词(也许我想在将来动态地确定这些部分,但我暂时不考虑它)。

我的问题是:什么是从包含我的 250 个单词中的大部分的语料库中取出这些部分的有用方法?

我查看了一些全文搜索引擎,例如 Lucene,但不确定它们是为处理长查询列表而构建的。布隆过滤器似乎也很有趣。我对 Perl 感觉最舒服,但如果 R​​uby 或 Python 有什么花哨的东西,我很乐意学习。在这一点上,性能不是问题。

这种程序的用例是在语言教学中,如果有各种各样的单词列表来反映学习者的不同程度的知识,并从原始来源快速找到合适的文本或示例,那就太好了。另外,我只是想知道如何做到这一点。

4

1 回答 1

1

实际上,我正在寻找的是文档比较。我在 PostgreSQL 中找到了一种通过与给定文档的相似性对文本进行排名的方法

于 2013-04-02T08:40:40.117 回答