1

我正在比较 Lucene/Solr、Whoosh、Sphinx 和 Xapian 在 DOC、DOCX、HTML 和 PDF 中搜索文档。只有 Solr 被记录为具有直接索引文档的文档解析器 (Tika)。所以这似乎是一个明显的赢家。

但为了公平竞争,我喜欢考虑替代方案。其他人是否有直接的文档索引(我可能错过了)?如果不是,它们可以轻松实施吗?还是 Solr 是压倒性的选择?

4

1 回答 1

0

在 Sphinx 上,您可以通过 xmlpipe_command 选项使用 PHP 脚本转换文件。由于 PHP 有一个 Tika 包装器,因此编写脚本和设置本身并不难。

于 2013-04-12T14:24:15.243 回答