java - 在java中从pdf中读取隐藏的内容

Question

我有几个 pdf，其中一些代码分散在（没有固定位置）如下：

oneCode=abcd
twoCode=4566

此外，文本的字体颜色为白色（与 PDF 的背景颜色相同）。所以它们是肉眼看不见的。

我想编写一个程序来使用键（完整单词的第一部分，例如 oneCode、twoCode 等）解析 pdf 并获取相应的值（例如 abcd、4566 等）。

在任何开源 pdf 解析器（如 PDFBox、iText 等）中是否提供这样的功能？

任何人都可以举一个例子吗？

谢谢阅读！

score 0 · Accepted Answer

也许这个问题会帮助你。

直到 2.1.7 版 iText 是开源的，可免费用于商业用途。请确保您需要的方法在 2.1.7 及以下版本中可用。否则，您可以从source-forge获得最新版本。但请注意，他们的许可是模糊的，他们从 source-forge 中删除了旧版本。

1 回答 1