当我使用基于pdfminer的程序从 12 页的 pdf 文件中提取内容时,我得到的结果是错误的,只有 11 页。我用其他文件对其进行了测试,在大多数情况下都得到了正确的结果。
不小心在 OS X Yosemite(v10.10.4) 中使用预览应用打开它,没有任何其他操作就保存了它。然后我从程序中得到的结果是正确的。我发现这个文件的大小通过预览从 2m 更改为 300k,但不知道它做了什么。
我尝试搜索答案,但大多数主题都是关于使用预览应用程序的导出功能来压缩 pdf 文件,似乎没有人遇到与 pdfminer 相同的问题。
1、预览应用在“保存”时对pdf文件做了什么?
2,我该如何处理这个问题?
提前致谢!