ghostscript - 让 ghostscript 单独留下 JBIG2 文件

Question

我正在使用gs从 PDF 中删除一些糟糕的 OCR，这些 OCR 本质上是带有不可见文本层的书页图像。其中一些页面图像被编码为 JBIG2。当我通过 gs 运行它们时，它会将图像格式更改为 CCIT，这通常还不错，但可以比 JBIG2 版本大 10 到 20 倍。

我一直在寻找一种方法，要么让 gs 不理会它们——比如 PassThroughJPEGImages——要么用 MonoImageEncoder 重新编码它们，但我没有成功。我没有找到任何类似的直通选项，并且在将编码器设置为 JBIG2Encode 时出错。我假设我发现后者不是标准选项，但需要 Luratech 库。

任何人都可以确认或 - 最好 - 解释我的错误吗？

TIA。

score -1 · Accepted Answer

目前没有办法让 Ghostscript 通过 JBIG2 图像保持不变。

pdfwrite 设备不允许 JBIG2Encode 作为一种可能的编码方法，因此您不能使用它。

这样做的结果是您只能使用 CCITTFaxEncode 作为 MonoImageEncode 参数。

一般来说，JBIG2 比 CCITTFax 好一点，但文本除外，如果知道文本的内容，则可以通过重用段来实现显着的节省（这也是 JBIG2 解码错误的来源，该错误在2013）。听起来你的图像是这样编码的，所以是的，你会得到更大的图像。

ghostscript - 让 ghostscript 单独留下 JBIG2 文件

1 回答 1

Related

Reference