任何人都可以帮助我了解如何使用 itext 或 pdfbox 提取表格数据,我有一个 1000 页的 pdf,我的工作是解析 pdf 并将数据存储到数据库中。
问问题
3744 次
2 回答
4
PDF 不包含任何表格结构元素,除非它包含用于定义表格的附加 XML。否则没有结构。我写了一篇关于如何找出答案的博客文章。
像 PdfBox 这样的一些工具会努力猜测表格,但它可能会被击中和错过
于 2013-01-15T08:07:54.460 回答
1
您可以使用此代码以字符串格式提取数据:
PDDocument document = PDDocument.load(pathToFile);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
然后您可以使用 java 正则表达式逐行解析并将值加载到您的 java POJO bean 中。
于 2014-02-18T13:26:12.517 回答