0

下午好,我的项目有问题,这是PDF压缩,过程如下: 从PDF中提取图像 挂起OCR 压缩库存OCR + 合并图像并转换每页PDF 将所有生成的pdf与OCR,OCR PDFcon合并一个作为最终产品。我的原始文件大小为 11 MB 和 4.2 MB 压缩。整个过程完美运行,但我遇到的问题是 OCR 过程的速度。我在网上查看,我看到了一种绕过该过程的方法,即获取原始 PDF 的文本层并将其传递给最终的 PDF 被压缩,尝试一些代码,例如删除 PDF 的所有图像并独处与文本层,并插入我的压缩图像,但与上面提供的正常过程相比,文件的重量增加了4.2 MB以上,这对我来说不方便。在寻求另一种解决方案时,我发现通过 PDFStreamParser 、 PDStream 、 COSDictionary 使用 PDFBox 处理的处理 PDF 运算符。运营商有TJ、TW、TZ、TC……等。我的问题是如果有人知道通过TJ操作,这是一个包含PDF文本到另一个的操作,看看是否可以将原始PDF的文本层传递给最终的PDF在没有我的情况下压缩4.2MB高权重,这个想法是不要花费其他运算符,因为这些会增加最终 PDF 的权重,还是我弄错了?如果您有任何其他可以帮助我的解决方案,将不胜感激?. TW , TZ , TC ...等。我的问题是如果有人知道通过TJ操作,这是一个包含PDF文本到另一个的操作,看看是否可以将原始PDF的文本层传递给最终的PDF在没有我的情况下压缩4.2MB高权重,这个想法是不要花费其他运算符,因为这些会增加最终 PDF 的权重,还是我弄错了?如果您有任何其他可以帮助我的解决方案,将不胜感激?. TW , TZ , TC ...等。我的问题是如果有人知道通过TJ操作,这是一个包含PDF文本到另一个的操作,看看是否可以将原始PDF的文本层传递给最终的PDF在没有我的情况下压缩4.2MB高权重,这个想法是不要花费其他运算符,因为这些会增加最终 PDF 的权重,还是我弄错了?如果您有任何其他可以帮助我的解决方案,将不胜感激?. 这个想法是不要花费其他运算符,因为这些会增加最终 PDF 的权重,还是我弄错了?如果您有任何其他可以帮助我的解决方案,将不胜感激?. 这个想法是不要花费其他运算符,因为这些会增加最终 PDF 的权重,还是我弄错了?如果您有任何其他可以帮助我的解决方案,将不胜感激?.

对不起,如果我的英语不好,如果有人懂西班牙语,请告诉我更好地表达自己。

我使用的语言是Java。

谢谢

4

0 回答 0