java - 根据某个键从 pdf 中读取内容

Question

我有几个 pdf，其中一些代码分散在（没有固定位置）如下：

oneCode=abcd
twoCode=4566

我想解析每个 pdf 以找到键“oneCode”或“twoCode”并从我的 java 程序中获取相应的值。

这样的功能在任何开源 pdf 解析器（如 PDFBox 等）中都可用吗？

任何人都可以举一个例子吗？

此外，我的 pdf 文件的大小可能从大到小不等，有时我可能需要从我的程序中解析数千个 PDF。所以解析完整的pdf然后从解析的文本中搜索key可能会变得非常非常慢。

那么是否有任何现有功能可以在我的场景中有所帮助？

谢谢阅读！

score 0 · Accepted Answer

我认为你不能比线性搜索更快。只是排序或索引的操作至少需要 O(n) 阶，所以即使有快速索引搜索的阅读器，它们也需要一些前导预处理时间。

你需要找一个能快速将数据传输到内存中的阅读器，这样你才能快速读取数据。

1 回答 1