solr - 用于在 Solr 中解析 PDF 的 Tika/PDFBox 替代方案（任何高于 1.4 的版本）

Question

似乎 Solr 没有正确解析我的 PDF 文件。我想知道使用 Apache Tika（我相信它在内部使用 PDFBox）来解析 PDF 文件是否还有其他选择？使用它时，我的内容之间似乎出现了随机空格。我已经通过直接通过 PDFBox 运行 PDF（最新版本）来隔离问题，这有同样的问题。

一些 OCR 商业软件（例如 Omnifind）在 PDF 上运行良好，但我们无法以相同的方式将它们与 Solr 集成，购买也不是一种选择。

score 2 · Accepted Answer

正如这个 SO question的答案所示，这是由于 PDF 格式本身的性质造成的。

在这个问题上，OCR 选项可能比 PDFBox 做得更好，有一些免费的 OCR 选项可用，如Tesseract和Ocropus，但我不知道它们的工作情况如何，或者它们是否可以轻松地与 Solr 集成。

score 1 · Accepted Answer

1

Xpdf包含 pdftotext，它比 Tika 更好地转换文档。

于 2011-11-16T15:02:44.247 回答

score 1 · Accepted Answer

当pdfbox完全失败（挂起，崩溃......）时，我使用jpod作为备用库从pdf中提取，所以至少在某些情况下它对我来说比pdbbox更好。

3 回答 3