0

我正在使用 PDFClown,我正在尝试从 pdf 文件中提取图像。我使用可在http://pdfclown.org找到的源代码提供的示例代码。

图像提取示例.java。

问题是图像是负面的并且水平翻转。有谁知道如何解决这个问题?

4

1 回答 1

1

检查其他 PDF 文件以查看其他 PDF 文件是否也提供旋转或翻转的图像。ImageExtractionSample.java不检查图像对象的旋转或矩阵定义的转换,而只是将内容按原样写入文件(因此它适用于 JPG 图像,但不适用于 CCIT 编码的图像)。

因此,从 PDF 中提取图像时需要考虑以下事项:

  • 可以使用附加的变换矩阵(CTM)旋转图像;
  • 图像可以作为被转换的形式的一部分进行旋转/转换;
  • 图像可以放置在页面上而不进行转换,但页面本身会旋转;
  • 图像可能包含覆盖在其顶部的蒙版(并且蒙版可以旋转和变换);
  • JPG 图像几乎按原样存储,但 PDF 还支持其他格式,如 CCIT 压缩、LZW 压缩图像等;

但一般建议是,当您使用 PDFClown 从 PDF 中提取 JPG 图像时,您应该像SourceForge 项目讨论页面上的建议那样翻转和旋转提取的图像。

如果您可以指向特定的 PDF 示例文件,那么建议解决方案会更容易。

如果您在 Windows 上,那么您可以使用这个免费的PDF Multitool实用程序来比较 PDF 中的未转换和转换的图像,使用图像提取对话框中的“提取原始图像(无转换)”选项。

免责声明:我为 ByteScout 工作,PDF Multitool 实用程序可免费用于商业和非商业目的。

于 2015-06-01T11:00:00.280 回答