5

似乎 Solr 没有正确解析我的 PDF 文件。我想知道使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件是否还有其他选择?使用它时,我的内容之间似乎出现了随机空格。我已经通过直接通过 PDFBox 运行 PDF(最新版本)来隔离问题,这有同样的问题。

一些 OCR 商业软件(例如 Omnifind)在 PDF 上运行良好,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。

4

3 回答 3

2

正如这个 SO question的答案所示,这是由于 PDF 格式本身的性质造成的。

在这个问题上,OCR 选项可能比 PDFBox 做得更好,有一些免费的 OCR 选项可用,如TesseractOcropus,但我不知道它们的工作情况如何,或者它们是否可以轻松地与 Solr 集成。

于 2011-11-16T11:00:09.560 回答
1

Xpdf包含 pdftotext,它比 Tika 更好地转换文档。

于 2011-11-16T15:02:44.247 回答
1

当pdfbox完全失败(挂起,崩溃......)时,我使用jpod作为备用库从pdf中提取,所以至少在某些情况下它对我来说比pdbbox更好。

于 2011-11-16T15:05:35.387 回答