0

在将一堆 PDF 渲染为图像时,icepdf 似乎随机出现 OutOfMemoryError。试图追查这一点,我发现了两件事:

  1. 靠近 OOM,它呈现 A0 页面或类似的大文档页面
  2. 使用 eclipse 内存分析器,我在内存中找到 1/2GB 的图像。

这建议将输出图像大小限制在可管理的范围内。我想知道最简单的方法是什么?

我查看了 icepdf 的 Page 对象,但强烈建议始终使用Page.BOUNDARY_CROPBOX,而 Javadoc 中似乎没有记录其他用途。

如何限制输出图像大小Document.getPageImage或我可以使用什么其他措施来防止 OOM(除了增加 Xmx,我不能)。降低图像质量是一种选择。但它应该只适用于“超大”图像,而不是全部。

我已经尝试使用 Document.paintPage() 使用预定义的图像,但这还不够。

调试终于让我放大了一个有问题的文档。我得到一个像这样的日志:

2016-12-09T14:23:35Z    DEBUG   class org.icepdf.core.pobjects.Document 1       MEMFREE: 712484296 of 838860800
2016-12-09T14:23:35Z    DEBUG   class org.icepdf.core.pobjects.Document 1       LOADING: ..../F1-2.pdf
2016-12-09T14:23:37Z    WARN    class org.icepdf.core.pobjects.graphics.ScaledImageReference    1       Error loading image: 9 0 R Image stream= {Type=XObject, Length=8 0 R, Filter=FlateDecode, ColorSpace=DeviceGray, Decode=[1, 0], Height=18676, Width=13248, Subtype=Image, BitsPerComponent=1, Name=Im1}  9 0 R

所以这将是 Height=18676, Width=13248 这真的很大。

我猜想在加载图像期间 OOM 已经发生,因此以后的缩放没有帮助。此外,该物业org.icepdf.core.imageReference=scaled似乎还没有足够早地受到打击。

对我来说,忽略这样的超大图像就可以了。任何机会?

4

1 回答 1

1

在解码 PDF 内容时,图像加载是迄今为止最耗费内存的内存任务。目前还没有一种简单的方法可以为非常大的图像关闭图像加载,但是如果你想自己实现它,我会给你一些代码提示。

ImageReferenceFactory.java 类是系统属性背后的工厂org.icepdf.core.imageReference,您会看到 getImageReferenced() 的默认值是 ImageStreamReference。您可以像这样创建一个新的 ImageReference 类型:

public static org.icepdf.core.pobjects.graphics.ImageReference
getImageReference(ImageStream imageStream, Resources resources, GraphicsState graphicsState,
                  Integer imageIndex, Page page) {
    switch (scaleType) {
        case SCALED:
            return new ScaledImageReference(imageStream, graphicsState, resources, imageIndex, page);
        case SMOOTH_SCALED:
            return new SmoothScaledImageReference(imageStream, graphicsState, resources, imageIndex, page);
        case MIP_MAP:
            return new MipMappedImageReference(imageStream, graphicsState, resources, imageIndex, page);
        case SKIP_LARGE:
            return new SkipLargeImageReference(imageStream, graphicsState, resources, imageIndex, page);
        default:
            return new ImageStreamReference(imageStream, graphicsState, resources, imageIndex, page);
    }
}

接下来,您可以ImageStreamReference使用新SkipLargeImageReference类扩展该类。然后按如下方式覆盖 call() 方法,它将跳过加载超过定义的 MAX_SIZE 的任何图像。

public BufferedImage call() {
    BufferedImage image = null;
    if (imageStream.getWidth() < MAX_SIZE && imageStream.getHeight() < MAX_SIZE){
        long start = System.nanoTime();
        try {
            image = imageStream.getImage(graphicsState, resources);
        } catch (Throwable e) {
            logger.log(Level.WARNING, "Error loading image: " + imageStream.getPObjectReference() +
                    " " + imageStream.toString(), e);
        }
        long end = System.nanoTime();
        notifyImagePageEvents((end - start));
        return image;
    }
    return null;
}

附带说明:为了最大限度地减少解码图像所需的内存量,请确保您正在使用org.icepdf.core.imageReference=default,因为这只会对图像进行一次解码。 org.icepdf.core.imageReference=scaled实际上会以全尺寸解码图像,然后进行缩放,这会产生非常大的内存峰值。我们正在试验 NIO 的直接 ByteBuffers,它看起来很有希望将解码内存使用从堆中移出,所以希望这在未来会变得更好。

于 2016-12-15T16:59:05.023 回答