我正在比较 Lucene/Solr、Whoosh、Sphinx 和 Xapian 在 DOC、DOCX、HTML 和 PDF 中搜索文档。只有 Solr 被记录为具有直接索引文档的文档解析器 (Tika)。所以这似乎是一个明显的赢家。
但为了公平竞争,我喜欢考虑替代方案。其他人是否有直接的文档索引(我可能错过了)?如果不是,它们可以轻松实施吗?还是 Solr 是压倒性的选择?
我正在比较 Lucene/Solr、Whoosh、Sphinx 和 Xapian 在 DOC、DOCX、HTML 和 PDF 中搜索文档。只有 Solr 被记录为具有直接索引文档的文档解析器 (Tika)。所以这似乎是一个明显的赢家。
但为了公平竞争,我喜欢考虑替代方案。其他人是否有直接的文档索引(我可能错过了)?如果不是,它们可以轻松实施吗?还是 Solr 是压倒性的选择?