0

我有点卡住了。我正在尝试从工作目录中的所有 PDF 文件中合并和提取文本。然后我想将数据存储在 CSV 表单中以对其进行额外分析。但是我不断收到PyPDF2.utils.PdfReadError: EOF marker not found错误消息。我已经检查了资源,但我仍在苦苦挣扎。

import PyPDF2
import os
from PyPDF2 import PdfFileMerger, PdfFileReader

merger = PdfFileMerger()
for filename in os.listdir():
    with open(filename,"rb") as source:
        tmp = PdfFileReader(source)
        merger.append(tmp)

tmp.write('tmp.csv', 'wb')
tmp.close()
4

1 回答 1

0

实际上,您的代码中有一些小错误,您正在创建tmp变量inside the loop但正在使用它outside for writing to csv。而且,据我所知,您不需要with open and then create a PdfFileReader object为合并而创建。尝试使用这种简单的方法来合并多个pdf-files

import PyPDF2
import os
from PyPDF2 import PdfFileMerger, PdfFileReader

merger = PdfFileMerger()

for pdffile in os.listdir():
    merger.append(pdffile)

merger.write('tmp.csv')
merger.close()
于 2020-09-17T19:39:49.050 回答