问题:如何使用 Python 包“slate”在同一路径中读取多个 PDF?
我有一个包含 600 多个 PDF 的文件夹。
我知道如何使用 slate 包将单个 PDF 转换为文本,使用以下代码:
migFiles = [filename for filename in os.listdir(path)
if re.search(r'(.*\.pdf$)', filename) != None]
with open(migFiles[0]) as f:
doc = slate.PDF(f)
len(doc)
但是,这将您一次限制为一个 PDF,由“migFiles[0]”指定 - 0 是我的路径文件中的第一个 PDF。
如何一次将多个 PDF 读取为文本,并将它们保留为单独的字符串或 txt 文件?我应该使用另一个包吗?如何创建一个“for 循环”来读取路径中的所有 PDF?