python - 如何在python中使用tika解析器提取每页超过2000个字符的pdf页面？

问问题 2020-06-21T22:00:54.970

264 次

我想使用python中的tika解析器提取每页超过2000个字符的pdf页面。从下面的代码中，我提取了 [元数据] 并从中 pdf:charsPerPage获取了每页的最小字符数限制（如 2000）。我未能集成pdf:charsPerPage代码以从解析器中获取 [内容] 数据。这是下面的代码：

import tika
from tika import parser
parsed = parser.from_file('C:/User/xyz/file.pdf')
parsed["metadata"]['pdf:charsPerPage']

# converting string to int to perform greater than operation 
test_list = [int(i) for i in parsed["metadata"]['pdf:charsPerPage']]
[i for i in test_list if i >= 2000]

# Sample ['pdf:charsPerPage'] data: ['1319','4930','6971','5548','5646','5974','5352','6096','6054']

Actual output from the above data: ['4930','6971','5548','5646','5974','5352','6096','6054']

从上面['pdf:charsPerPage']第一个元素的字符数少于 2000，通过上述操作，我们将字符数限制排除在 2000 以内。现在我想提取/解析每页有超过 2000 个字符的字符。

python - 如何在python中使用tika解析器提取每页超过2000个字符的pdf页面？

0 回答 0

Related

Reference