java - 将 OCR 从 PDF 移动到另一个 - Java

Question

下午好，我的项目有问题，这是PDF压缩，过程如下：从PDF中提取图像挂起OCR 压缩库存OCR + 合并图像并转换每页PDF 将所有生成的pdf与OCR，OCR PDFcon合并一个作为最终产品。我的原始文件大小为 11 MB 和 4.2 MB 压缩。整个过程完美运行，但我遇到的问题是 OCR 过程的速度。我在网上查看，我看到了一种绕过该过程的方法，即获取原始 PDF 的文本层并将其传递给最终的 PDF 被压缩，尝试一些代码，例如删除 PDF 的所有图像并独处与文本层，并插入我的压缩图像，但与上面提供的正常过程相比，文件的重量增加了4.2 MB以上，这对我来说不方便。在寻求另一种解决方案时，我发现通过 PDFStreamParser 、 PDStream 、 COSDictionary 使用 PDFBox 处理的处理 PDF 运算符。运营商有TJ、TW、TZ、TC……等。我的问题是如果有人知道通过TJ操作，这是一个包含PDF文本到另一个的操作，看看是否可以将原始PDF的文本层传递给最终的PDF在没有我的情况下压缩4.2MB高权重，这个想法是不要花费其他运算符，因为这些会增加最终 PDF 的权重，还是我弄错了？如果您有任何其他可以帮助我的解决方案，将不胜感激？. TW ， TZ ， TC ...等。我的问题是如果有人知道通过TJ操作，这是一个包含PDF文本到另一个的操作，看看是否可以将原始PDF的文本层传递给最终的PDF在没有我的情况下压缩4.2MB高权重，这个想法是不要花费其他运算符，因为这些会增加最终 PDF 的权重，还是我弄错了？如果您有任何其他可以帮助我的解决方案，将不胜感激？. TW ， TZ ， TC ...等。我的问题是如果有人知道通过TJ操作，这是一个包含PDF文本到另一个的操作，看看是否可以将原始PDF的文本层传递给最终的PDF在没有我的情况下压缩4.2MB高权重，这个想法是不要花费其他运算符，因为这些会增加最终 PDF 的权重，还是我弄错了？如果您有任何其他可以帮助我的解决方案，将不胜感激？. 这个想法是不要花费其他运算符，因为这些会增加最终 PDF 的权重，还是我弄错了？如果您有任何其他可以帮助我的解决方案，将不胜感激？. 这个想法是不要花费其他运算符，因为这些会增加最终 PDF 的权重，还是我弄错了？如果您有任何其他可以帮助我的解决方案，将不胜感激？.

对不起，如果我的英语不好，如果有人懂西班牙语，请告诉我更好地表达自己。

我使用的语言是Java。

谢谢

java - 将 OCR 从 PDF 移动到另一个 - Java

0 回答 0

Related

Reference