0

我的用例非常简单。我需要将 PDF 转换为图像。我尝试使用 apache pdfbox,但在转换包含扫描图像的 pdf 时遇到了一些麻烦。当我转换扫描图像时,由于压缩/缩放,图像清晰度会丢失。所以我试图从PDF中提取图像数据然后存储它。但问题是我可能会得到包含图像和文本的 PDF 文件,在这种情况下我需要回退到图像转换模式。问题是如何区分只有图像的页面/文档和具有复合数据的页面/文档。我在想我可以为此目的使用 ProcSet 防御,但根据 PDF 规范,它看起来被标记为过时且不可靠。另一种可能性是检查链接到该页面的所有对象,看看它是否包含图像以外的任何内容。

4

1 回答 1

0

如果您的意图是将 pdf 转换为图像,最好使用ImageMagick。如果你使用 ImageMagick,有很多选项可以改变图像的质量。使用 ImageMagick 将 pdf 转换为图像非常简单。

于 2013-03-23T06:10:40.257 回答