我是 Python 的完整初学者。我真的是上周末开始的。我正在使用 Python 3。
我正在尝试从 pdf 文件中读取文本。我首先按照 Automate the Boring Stuff 中的说明尝试了 pyPDF2,但我得到的结果在单词之间没有空格,因此无法使用。然后我通过在命令行中输入“pip install pdfminer3k”来安装 pdfminer3k。
然后我在解释器中输入了以下几行:
import pdfminer, os
base_path = ("C://Users//ross_")
my_file = os.path.join(base_path + "/" + "sample2.pdf")
log_file = os.path.join(base_path + "/" + "pdf_log.txt")
password = ""
extracted_text = ""
fp = open(my_file, "rb")
parser = PDFParser(fp)
document = PDFDocument(parser, password)
但最后一行给了我这个错误信息:
Traceback(最近一次调用最后一次):文件“”,第 1 行,在 document = PDFDocument(parser, password) NameError: name 'PDFDocument' is not defined
有谁知道为什么我会收到该错误消息?我认为 PDFDocument 会在 pdfminer 模块中定义。更一般地说,如何弄清楚这样的东西?是否有资源可以解释如何使用像 pdfminer 这样的模块?非常感谢并为我的完全无知道歉。