0

我有几个 pdf,其中一些代码分散在(没有固定位置)如下:

oneCode=abcd
twoCode=4566

我想解析每个 pdf 以找到键“oneCode”或“twoCode”并从我的 java 程序中获取相应的值。

这样的功能在任何开源 pdf 解析器(如 PDFBox 等)中都可用吗?

任何人都可以举一个例子吗?

此外,我的 pdf 文件的大小可能从大到小不等,有时我可能需要从我的程序中解析数千个 PDF。所以解析完整的pdf然后从解析的文本中搜索key可能会变得非常非常慢。

那么是否有任何现有功能可以在我的场景中有所帮助?

谢谢阅读!

4

1 回答 1

0

我认为你不能比线性搜索更快。只是排序或索引的操作至少需要 O(n) 阶,所以即使有快速索引搜索的阅读器,它们也需要一些前导预处理时间。

你需要找一个能快速将数据传输到内存中的阅读器,这样你才能快速读取数据。

于 2013-10-15T15:38:27.537 回答