Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
如何在python中逐行获取pdf文件的内容?我在stackoverflow中搜索过,但找不到任何好的答案。注意:pyPdf 给出断言错误,如果可能的话,使用 slate 和 pdfminer。
从命令行:python /path/to/pdf2txt.py -o text.txt /path/to/yourpdf.pdf
python /path/to/pdf2txt.py -o text.txt /path/to/yourpdf.pdf
然后,您可以获取它制作的文本文件并使用for line in file:
for line in file:
如果您想提高效率,则必须更改 pdf2txt.py,并且必须outfp是 python iostring,这将避免创建文件然后从中读取。
outfp