我有一个代码在一堆 pdf 中寻找特定的字符串序列。问题是这个过程非常缓慢。(有时我会得到超过 50000 页的 pdf)
有没有办法做多线程?不幸的是,即使我进行了搜索,我也无法对线程代码做出正面或反面
import os
import shutil as sh
f = 'C:/Users/akhan37/Desktop/learning profiles/unzipped/unzipped_files'
import slate3k as slate
idee = "123456789"
os.chdir(f)
for file in os.listdir('.'):
print(file)
with open(file,'rb') as g:
extracted_text = slate.PDF(g)
#extracted_text = slate.PDF()
# print(Text)
if idee in extracted_text:
print(file)
else:
pass
运行时间很长。我不认为这是代码错误,而是我必须阅读超过 700 个 pdf 的事实