我想在现有的 PDF 文件中插入不可见的文本,使其可搜索。
我应该使用什么库?
我会很感激链接到特定的API 方法来使用。
免费,最好是开源的。
非常感谢!
(对于好奇的:我想在 Alfresco 存储库中自动 OCR 传入的扫描文件并使其可搜索)
我想在现有的 PDF 文件中插入不可见的文本,使其可搜索。
我应该使用什么库?
我会很感激链接到特定的API 方法来使用。
免费,最好是开源的。
非常感谢!
(对于好奇的:我想在 Alfresco 存储库中自动 OCR 传入的扫描文件并使其可搜索)
3个选项。我的答案是特定于 itext 的,但您应该能够将底层方法转换为任何足够先进的 PDF 库。
myPdfContentByte.setTextRenderMode(PdfContentByte.TEXT_RENDER_MODE_INVISIBLE);
myPdfStamper.getUnderContent(pageNum)
使这变得简单,并让您在扫描下绘制文本。允许您访问页面内容的其他库可能需要您在现有内容流的开头添加“原始”文本。您需要查看“PDF Spec”(谷歌,你会没事的)了解详细信息。第 9 章是关于文本渲染的全部内容。您不必使文本不可见。只需将它们渲染在适当的位置,但将扫描的图像覆盖在文本上。或者,您可以在图像上渲染文本并将笔触和画笔颜色的 alpha 值设置为零。