python - PDFMiner 从 PDF 中提取文本而不混合顺序

Question

我在 PDF 中有以下文本：

STUDENT ________JOHN______
DATE ______MM/DD/AAA______ (date)
COURSE ___________________ PROFESSOR ___________

当我使用 PDFMiner 提取文本时，我得到以下信息：

STUDENT ____
DATE MM/DD/AAA
(date)
JOHN
COURSE 
___________________ 
PROFESSOR 
___________

如何使用 PDFMiner（或其他 Python 库）获得正确的输出？

score 1 · Accepted Answer

最好的方法是使用 pdfminer HTMLConverter 将 PDF 提取为 HTML。一个典型的命令是：

pdf2txt.py -t html -o outputFilePath/outputFileName.txt YourPDFpath/PDFname.pdf

进一步处理可能会让您陷入一些编码困境，因此最好将编码定义为 utf-8 或 cp1252。示例：

pdf2txt.py -t html -c cp1252 -o outputFilePath/outputFileName.txt YourPDFpath/PDFname.pdf

1 回答 1