java - 如何使用pdfbox解析包含表格格式数据的pdf

Question

任何人都可以帮助我了解如何使用 itext 或 pdfbox 提取表格数据，我有一个 1000 页的 pdf，我的工作是解析 pdf 并将数据存储到数据库中。

score 4 · Accepted Answer

PDF 不包含任何表格结构元素，除非它包含用于定义表格的附加 XML。否则没有结构。我写了一篇关于如何找出答案的博客文章。

像 PdfBox 这样的一些工具会努力猜测表格，但它可能会被击中和错过

score 1 · Accepted Answer

您可以使用此代码以字符串格式提取数据：

PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

然后您可以使用 java 正则表达式逐行解析并将值加载到您的 java POJO bean 中。

2 回答 2