我正在使用 dox4j 和 pdfbox 分两步将 docx 文件的第一页转换为图像,但我目前OutOfMemoryError
每次都得到一个。
我已经能够确定在该过程的最后一步引发了异常,而该convertToImage
方法正在被调用,但是我一直在使用该方法的第二步来转换 pdf 一段时间没有问题所以我不知道可能是什么原因,除非 dox4j 正在编码 pdf 是一种我尚未测试或已损坏的方式。
我试过用ByteArrayOutputStream
a替换FileOutputStream
pdf 似乎正确渲染并不比我预期的要大。
这是我正在使用的代码:
WordprocessingMLPackage wordMLPackage = WordprocessingMLPackage.load(file);
org.docx4j.convert.out.pdf.PdfConversion c = new org.docx4j.convert.out.pdf.viaXSLFO.Conversion(wordMLPackage);
((org.docx4j.convert.out.pdf.viaXSLFO.Conversion)c).setSaveFO(File.createTempFile("fonts", ".fo"));
ByteArrayOutputStream os = new ByteArrayOutputStream();
c.output(os, new PdfSettings());
byte[] bytes = os.toByteArray();
os.close();
ByteArrayInputStream is = new ByteArrayInputStream(bytes);
PDDocument document = PDDocument.load(is);
PDPage page = (PDPage) document.getDocumentCatalog().getAllPages().get(0);
BufferedImage image = page.convertToImage(BufferedImage.TYPE_INT_RGB, 96);
is.close();
document.close();
编辑 为了在这种情况下提供更多上下文,此代码正在 grails web 应用程序中运行。我尝试了该代码的几种不同变体,包括将不再需要的所有内容清空,使用 FileInputStream 和 FileOutputStream 来尝试节省更多物理内存并检查 docx4j 和 pdfbox 的输出,它们似乎都可以正常工作。
我正在使用 docx4j 2.8.1 和 pdfbox 0.7.3,我也尝试过 pdf-renderer,但仍然出现 OutOfMemoryError。我的怀疑是 docx4j 使用了太多内存,但在 pdf 到图像转换之前不会产生错误。
我很乐意将 docx 文件转换为 pdf 或直接转换为图像作为答案的另一种方法,但是我目前正在尝试替换在服务器上运行有问题的 jodconverter。