0

我试图将 pdf 文档(包括表格)转换为 csv 文件。不幸的是我失败了。我使用了以下方法:

  1. 首先使用pdfminer将 pdf 转换为文本,但文本文件的结构与 pdf 文件的结构不同。

  2. 首先使用pypdf2将 pdf 转换为文本,但文本文件的结构与 pdf 文件的结构不同。

  3. 首先使用pdftotext将 pdf 转换为文本,但文本文件的结构与 pdf 文件的结构不同。

  4. 首先使用slate将 pdf 转换为文本,但文本文件的结构与 pdf 文件的结构不同。

请告诉我将 pdf 转换为 csv 文件的适当方法。有人建议我将文档解析为 xml 文件,然后再解析为 csv 文件。即便如此,我也没有得到解决方案。

PDF 文档如下所示:

PDF 文档的图像在这里

有没有更好的工具可以将 pdf 文档(包括复杂的表格)转换为 csv 文件?

Python 语言的解决方案将不胜感激。

4

1 回答 1

0

可能值得一试PDFTables,他们有一个 Python 库/API 用于 PDF 到 CSV 的转换,并且您可以获得免费页面来试用它。

于 2017-03-31T22:00:13.013 回答