似乎 Solr 没有正确解析我的 PDF 文件。我想知道使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件是否还有其他选择?使用它时,我的内容之间似乎出现了随机空格。我已经通过直接通过 PDFBox 运行 PDF(最新版本)来隔离问题,这有同样的问题。
一些 OCR 商业软件(例如 Omnifind)在 PDF 上运行良好,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。
似乎 Solr 没有正确解析我的 PDF 文件。我想知道使用 Apache Tika(我相信它在内部使用 PDFBox)来解析 PDF 文件是否还有其他选择?使用它时,我的内容之间似乎出现了随机空格。我已经通过直接通过 PDFBox 运行 PDF(最新版本)来隔离问题,这有同样的问题。
一些 OCR 商业软件(例如 Omnifind)在 PDF 上运行良好,但我们无法以相同的方式将它们与 Solr 集成,购买也不是一种选择。
正如这个 SO question的答案所示,这是由于 PDF 格式本身的性质造成的。
在这个问题上,OCR 选项可能比 PDFBox 做得更好,有一些免费的 OCR 选项可用,如Tesseract和Ocropus,但我不知道它们的工作情况如何,或者它们是否可以轻松地与 Solr 集成。
Xpdf包含 pdftotext,它比 Tika 更好地转换文档。
当pdfbox完全失败(挂起,崩溃......)时,我使用jpod作为备用库从pdf中提取,所以至少在某些情况下它对我来说比pdbbox更好。