0

如何在python中逐行获取pdf文件的内容?我在stackoverflow中搜索过,但找不到任何好的答案。注意:pyPdf 给出断言错误,如果可能的话,使用 slate 和 pdfminer。

4

1 回答 1

0

从命令行:python /path/to/pdf2txt.py -o text.txt /path/to/yourpdf.pdf

然后,您可以获取它制作的文本文件并使用for line in file:

如果您想提高效率,则必须更改 pdf2txt.py,并且必须outfp是 python iostring,这将避免创建文件然后从中读取。

于 2012-04-04T02:10:36.840 回答