python-3.x - PyPDF2 仅返回某些文件的空行

Question

我正在编写一个脚本，该脚本“读取”PDF 文件，然后自动重命名它从字典中识别的文件。然而，PyPDF2 只为某些 PDF 返回空行，而对其他 PDF 工作正常。读取文件的代码：

import PyPDF2

# File name
file = 'sample.pdf'

# Open File
with open(file, "rb") as f:
    # Read in file
    pdfReader = PyPDF2.PdfFileReader(f)

    # Check number of pages
    number_of_pages = pdfReader.numPages
    print(number_of_pages)

    # Get first page
    pageObj = pdfReader.getPage(0)

    # Extract text from page 1
    text = pageObj.extractText()        

print(text)

它确实获得了正确的页数，因此它能够打开 PDF。

如果我用 repr(text) 替换它不读取的文件的 print(text)，我会得到类似的东西：

"'\\n\\n\\n\\n\\n\\n\\n\\nn\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n\\n'"

奇怪的是，当我使用 Adobe 增强 (OCR) 文件时，脚本的性能稍差。它识别了 800 个文件中的 140 个，仅增强了 110 个。

PDF 是机器可读/可搜索的，因为我可以将文本复制/粘贴到记事本。我用“pdfminer”测试了一些文件，它确实显示了一些文本，但也引发了很多错误。如果可能的话，我喜欢继续使用 PyPDF2。

我正在使用的软件规格：
Windows：10.0.15063
Python：3.6.1
PyPDF：1.26.0
Adobe 版本：17.009.20058

有人有什么建议吗？非常感激你的帮助！

score 1 · Accepted Answer

我遇到了同样的问题，我使用另一个名为slate的python 库修复了它幸运的是，我找到了一个适用于 Python 3.6.5的fork

import slate3k as slate

with open(file.pdf,'rb') as f:
    extracted_text = slate.PDF(f)
print(extracted_text)

python-3.x - PyPDF2 仅返回某些文件的空行

1 回答 1

Related

Reference