0

当我使用基于pdfminer的程序从 12 页的 pdf 文件中提取内容时,我得到的结果是错误的,只有 11 页。我用其他文件对其进行了测试,在大多数情况下都得到了正确的结果。

不小心在 OS X Yosemite(v10.10.4) 中使用预览应用打开它,没有任何其他操作就保存了它。然后我从程序中得到的结果是正确的。我发现这个文件的大小通过预览从 2m 更改为 300k,但不知道它做了什么。

我尝试搜索答案,但大多数主题都是关于使用预览应用程序的导出功能来压缩 pdf 文件,似乎没有人遇到与 pdfminer 相同的问题。

1、预览应用在“保存”时对pdf文件做了什么?

2,我该如何处理这个问题?

提前致谢!

4

1 回答 1

1

PDF 是一种复杂的文件格式,它支持许多不同的功能和处理方式。您的 pdfminer 应用程序显然在某些功能方面存在问题,这会导致它误解某些文件。另一方面,预览似乎可以正确支持所有内容,并且能够将文件正确读取为其内部演示格式。然后,当您重新保存文件时,Preview 会以写入相同信息的方式写入文件。同样,做同一件事的许多不同方法意味着不同的程序会做不同的事情。

预览显然有更好、更兼容、更精简的方式来表达相同的内容;你的 pdfminer 可以更好地处理它。

于 2015-08-25T10:08:02.373 回答