python - python pdf逐行

Question

如何在python中逐行获取pdf文件的内容？我在stackoverflow中搜索过，但找不到任何好的答案。注意：pyPdf 给出断言错误，如果可能的话，使用 slate 和 pdfminer。

score 0 · Accepted Answer

从命令行：python /path/to/pdf2txt.py -o text.txt /path/to/yourpdf.pdf

然后，您可以获取它制作的文本文件并使用for line in file:

如果您想提高效率，则必须更改 pdf2txt.py，并且必须outfp是 python iostring，这将避免创建文件然后从中读取。

1 回答 1