我目前正在使用tika
从 pdf 文件中提取文本。tika
我在模块中找到了一个非常快速的方法。这种方法称为unpack
. 这是我的代码:
from tika import unpack
text = unpack.from_file('example.pdf')['content']
但是,偶尔(不总是!)我会收到以下警告:
2018-11-02 15:30:25,533 [MainThread ] [WARNI] Failed to see startup log message; retrying...
重试后代码开始工作。但是,我不明白这个警告,而且重试也需要时间。任何人都知道为什么我会收到此警告?
这是 github 页面: https ://github.com/chrismatmann/tika-python