file-io - 如何从pdf文件中逐行读取txt

Question

import pyPdf 
f= open('jayabal_appt.pdf','rb')
pdfl = pyPdf.PdfFileReader(f)
output = pyPdf.PdfFileWriter()
content=""
for i in range(0,1):
    content += pdfl.getPage(i).extractText() + "\n"
outpu = open('b.txt','wb')
outpu.write(content)
f.close()
outpu.close()

这不是将 pdf 的内容写入 txt 文件……我该怎么做？？？

score 0 · Accepted Answer

遍历每个页面并extractText()像这样调用：

content = ""
for i in range(0, num_pages):
    content += pdfl.getPage(i).extractText() + "\n"

获得完整内容后，您可以通过 '\n' 分隔符轻松拆分行。

编辑：在 for 循环之后检查变量是否contents包含任何文本。并非所有 PDF 文件都包含文本信息。

file-io - 如何从pdf文件中逐行读取txt

1 回答 1

Related

Reference