java - Zip 文件作为 InputStream，然后分离其中的每个文件，然后将其转换为图像。在 Java 中

Question

我得到一个 zip 文件作为InputStream. 然后我将其中的每个文件分开。然后我将其传递给内部用于将其转换为图像byte array的pdfbox 。Apace pdf box 1.6.0

但是，当我将其传递byte array给时，PDFDocumentReader我得到以下异常-

SEVERE: expected='endstream' actual='' org.apache.pdfbox.io.PushBackInputStream@44c2beb9
java.io.IOException: expected='endstream' actual='' org.apache.pdfbox.io.PushBackInputStream@44c2beb9
at org.apache.pdfbox.pdfparser.BaseParser.parseCOSStream(BaseParser.java:439)
at org.apache.pdfbox.pdfparser.PDFParser.parseObject(PDFParser.java:530)
at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:172)
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:862)
at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:829)
at org.dopdf.document.read.pdf.PDFDocumentReader.init(PDFDocumentReader.java:98)

要从 zip 中获取每个文件，我使用以下代码 -

    ZipInputStream zis = new ZipInputStream(aZipFile); // aZipFile is byte array
    ZipEntry entry;
    ArrayList<String> nameOfIgnoredFiles = new ArrayList<String>();
    byte data[] = null;
    while ((entry = zis.getNextEntry()) != null) {
        if (entry.getName().endsWith(".pdf")) {
            int dataSize = (int)entry.getSize();
            data = new byte[dataSize];
            zis.read(data);
            // i use data and pass it to the pdf box.
        } else {
            nameOfIgnoredFiles.add(entry.getName());
        }

然后将我在上面获取的data字节数组传递给如下 -

PDFDocumentReader document = new PDFDocumentReader(data); // here i get the error

我究竟做错了什么？你能提出一个解决方案吗？我猜数据字节数组的获取是一个问题。如何做到最好？

score 2 · Accepted Answer

您假设zis.read(data)填充缓冲区。检查 API 文档。不能保证这样做。您还假设大小适合 int，并且项目本身适合内存。这些假设都不成立。

当然，您可以将条目传递InputStream给pdfboxAPI 吗？

java - Zip 文件作为 InputStream，然后分离其中的每个文件，然后将其转换为图像。在 Java 中

1 回答 1

Related

Reference