我有点卡住了。我正在尝试从工作目录中的所有 PDF 文件中合并和提取文本。然后我想将数据存储在 CSV 表单中以对其进行额外分析。但是我不断收到PyPDF2.utils.PdfReadError: EOF marker not found错误消息。我已经检查了资源,但我仍在苦苦挣扎。
import PyPDF2
import os
from PyPDF2 import PdfFileMerger, PdfFileReader
merger = PdfFileMerger()
for filename in os.listdir():
with open(filename,"rb") as source:
tmp = PdfFileReader(source)
merger.append(tmp)
tmp.write('tmp.csv', 'wb')
tmp.close()