5

任何人都可以帮助我了解如何使用 itext 或 pdfbox 提取表格数据,我有一个 1000 页的 pdf,我的工作是解析 pdf 并将数据存储到数据库中。

4

2 回答 2

4

PDF 不包含任何表格结构元素,除非它包含用于定义表格的附加 XML。否则没有结构。我写了一篇关于如何找出答案的博客文章。

像 PdfBox 这样的一些工具会努力猜测表格,但它可能会被击中和错过

于 2013-01-15T08:07:54.460 回答
1

您可以使用此代码以字符串格式提取数据:

PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);

然后您可以使用 java 正则表达式逐行解析并将值加载到您的 java POJO bean 中。

于 2014-02-18T13:26:12.517 回答