我正在处理一些非常大的 PDF,有些超过 7GB。PDF 有多达 20,000 页和许多全页彩色图像。我想使用 PDFBox 来处理 PDF,但由于我尝试打开 PDF 时出现 OutOfMemoryError 的大小。
我正在使用 Intellij、java 6 在 Windows 7 上使用版本 pdfbox-app-1.6.0。
首先,我尝试编写一个简单的程序,该程序仅在 PDDocument 中打开 PDF 并将每个页面处理到另一个 PDDocument:http: //ideone.com/arKhB
接下来我尝试使用 PDFBox CopyDoc示例。
这两个示例都内存不足。
我假设这是因为 PDFBox 试图将整个文档读入内存。有没有办法让它一次只打开一页?我知道这会是较慢的处理,但目前我无法处理任何事情。