2

我需要读取具有表格格式数据的 pdf 文件,就像在 excel 文件中一样。我需要提取给定 pdf 文件的单元格值。无论如何都可以使用itext API。如果您有什么要分享的,请分享它或任何其他解决方案?

4

2 回答 2

2

PDF格式只是一个没有任何结构信息的放置文本和图形的画布。因此,iText-objectsPDF文件中没有任何内容。在每一页中可能会有一些Strings,但您不能使用这些字符串重构短语或段落。可能绘制了许多线条,但您无法Table-object根据这些线条检索 a 。

简而言之:解析 PDF 文件的内容是不可能iText

你可以试试这个!这使您可以阅读PDF页面。

于 2012-08-22T09:08:13.943 回答
0

我最近遇到了这个问题。我无法使其与 itext 一起使用。

我发现的另一种解决方案是在 Adob​​e 中打开 PDF 文档并将其导出为 xml。至少在我的 PDF 中,它保留了表格信息,然后我能够以编程方式使用 XML 生成表格文件,如 excel 等。

我遇到的另一个问题是 Adob​​e 一次只允许您导出一个文件,而我有很多文件。幸运的是,Adobe 也有合并功能。我最终将所有文件合并在一起,然后将它们导出为一个大的 XML 文件,并使用该文件生成我需要的文件。

于 2015-05-13T15:37:57.770 回答