lucene - 语言语料库搜索引擎

Question

我正在尝试找到一个好的库来构建语言语料库搜索引擎。这样的引擎必须产生绝对透明的搜索结果（找到的匹配的确切数量，即使整个语料库都匹配也不会切割结果），基本的查询语法（AND，OR，NOT 运算符，距离搜索，通配符搜索）和精炼搜索的能力设置为搜索的文档（即设置一个 subcirous）。一个重要的细节是索引分区和并行执行搜索的能力（语料的大小有10^8个单词的量级，并且搜索服务必须是实时的）。

主要的选择是在 Sphinx 和 Clucene（一个 C++ Lucene 端口）之间。不幸的是，我对这些图书馆的组织了解不多，所以知道哪一个更符合我的要求会很有帮助。

（我还尝试了一个专门的引擎 - IMS Corpus Workbench - 结果证明它的可扩展性不如需要）。

score 1 · Accepted Answer

我建议设置 SOLR 服务器，它是 Lucene 的衍生产品，具有 Restful 接口。Lucene(SOLR) 的新功能在其他同类产品中是无可比拟的。10 ^ 8 个不同单词的语料库，也许是一个问题，但我希望它们是不明确的。最多，在我的猜测中，它可能会导致一些性能损失。在裸露的 Lucene 上并行提供分区和搜索将是一项退化的工作。SOLR 提供了这两种功能。我不太了解狮身人面像。但到目前为止，Lucene 及其衍生产品处于最前沿。

lucene - 语言语料库搜索引擎

1 回答 1

Related

Reference