我一直在尝试在 Scala 中重新实现 OpenPDF 1.2.4 和 1.2.11 中的连接示例:
def mergePdfs(docs: Seq[Array[Byte]]): Array[Byte] = {
log.debug(s"merging ${docs.size} PDFs")
val output = new ByteArrayOutputStream()
val document = new Document()
val copy = new PdfCopy(document, output)
getPageSize(docs.headOption) foreach document.setPageSize
document.open()
docs foreach { doc =>
val reader = new PdfReader(doc)
1 to reader.getNumberOfPages foreach { pageNum =>
copy.addPage(copy.getImportedPage(reader, pageNum))
}
}
document.close()
output.toByteArray
}
这 是一个示例输出文档。我从 this 的两个副本和this的三个副本生成它。
我看到两个问题:
- 文档已损坏(仅在 FireFox 中打开),部分原因是标题和第一个对象之间有一条线。删除有问题的行并不能修复客户端代码中的文档错误,谢谢@mkl!
- 某些页面(通常是一个,但它是不确定的)显示为空白。没有我见过的模式。此外,每个页面的文本在文件中出现两次。例如在上面的例子中:
$ strings out.pdf | grep "A Simple PDF File" | wc -l | tr -d ' '
6
在一种情况下,我使用 vim 删除了第一个内容流,这导致文本出现在第一页上。
我是否以某种方式滥用 API?