3

更新:请参阅https://softwarerecs.stackexchange.com/questions/71464/java-library-to-insert-invisible-text-into-a-pdf

我想在现有的 PDF 文件中插入不可见的文本,使其可搜索。

我应该使用什么库
我会很感激链接到特定的API 方法来使用。

免费,最好是开源的。
非常感谢!

(对于好奇的:我想在 Alfresco 存储库中自动 OCR 传入的扫描文件并使其可搜索)

4

3 回答 3

4

3个选项。我的答案是特定于 itext 的,但您应该能够将底层方法转换为任何足够先进的 PDF 库。

  1. 文本渲染模式 3:“无描边,无填充”。使用 iText:myPdfContentByte.setTextRenderMode(PdfContentByte.TEXT_RENDER_MODE_INVISIBLE);
  2. 在某物后面画出文字。您可能正在使用扫描的页面图像。iTextmyPdfStamper.getUnderContent(pageNum)使这变得简单,并让您在扫描下绘制文本。允许您访问页面内容的其他库可能需要您在现有内容流的开头添加“原始”文本。您需要查看“PDF Spec”(谷歌,你会没事的)了解详细信息。第 9 章是关于文本渲染的全部内容。
  3. 在页面的媒体或裁剪框之外绘制文本。如果您只是想要一些随机的 PDF 搜索引擎来打开您的页面,这将起作用,但如果您希望查看 PDF 的人看到适当的文本选择框......不是那么多。
于 2011-03-03T18:28:37.090 回答
1

展示了如何创建包含文本的 PDF 文档,并展示了如何添加图像。首先添加文本,然后在其顶部添加图像 - 文本将对最终用户变得“不可见”,但仍可被搜索引擎搜索。 也可能有用。

于 2011-03-01T19:39:35.087 回答
0

您不必使文本不可见。只需将它们渲染在适当的位置,但将扫描的图像覆盖在文本上。或者,您可以在图像上渲染文本并将笔触和画笔颜色的 alpha 值设置为零。

于 2011-02-28T05:13:26.307 回答