我有几个 pdf,其中一些代码分散在(没有固定位置)如下:
oneCode=abcd
twoCode=4566
我想解析每个 pdf 以找到键“oneCode”或“twoCode”并从我的 java 程序中获取相应的值。
这样的功能在任何开源 pdf 解析器(如 PDFBox 等)中都可用吗?
任何人都可以举一个例子吗?
此外,我的 pdf 文件的大小可能从大到小不等,有时我可能需要从我的程序中解析数千个 PDF。所以解析完整的pdf然后从解析的文本中搜索key可能会变得非常非常慢。
那么是否有任何现有功能可以在我的场景中有所帮助?
谢谢阅读!