我正在尝试找出搜索/解析一组大型 pdf 文件的最佳方法。我目前正在使用 PDFBox 将我的 PDF 文件转换为文本文件。然后我使用 Lucene 来索引这些文本文件并搜索信息。使用这种方法我面临一些问题。(请注意,我在非常基本的层面上使用这两种技术只是为了看看它们能做什么)。
考虑我的 PDF 文件中的以下行,它给出了所有列的总计。每列包含一对值,其总计显示如下。
Grand Total $3,148.06 $484.80 $13.07 $8.90 $0.00 $69.90 $0.00 $0.00
$10.00 $5.15 $25.60 $0.00 $2.69 $0.00 $0.00 $0.00 $3,768.17
当我使用 PDFBox 中的 TextStripper 将我的 pdf 文件转换为文本文件时,pdf 文件中的上述行将转换为文本文件中的以下文本。
58.20$3,148.06 $484.80 $13.07 $0.00 $0.00 $0.00Grand Total $8.90 $69.90$10.00 $5.15 $25.60 $0.00 $2.69 $0.00 $0.00 $0.00 $3,768.17
从上面的文本文件可以看出,数据分散在 Grand Total 标签周围。因此,由于 PDF 文件的缩进没有保存在文本文件中,因此难以检索总计信息。
因此,我想知道是否有办法将 PDF 文件转换为文本文件,以便文本文件保持 PDF 文件的缩进/格式。我还想知道 Lucene 是否是实现我的目标的好主意,或者是否有更简单快捷的方法从一组大型 PDF 文件中检索信息?