python - 如何修复“无法从'pdfminer.pdfinterp'导入名称'process_pdf'”错误

Question

我正在尝试将 pdf 文件中的文本转换为文本或 HTML 格式，但此错误经常发生 'cannot import name 'process_pdf' from 'pdfminer.pdfinterp' ' 如何删除这个？

我已经在 Visual Basic Studio 中尝试过这段代码，但它仍然无法正常工作，但在这种情况下，由于空格，我得到了缩进错误，所以我在 jupyter notebook 中尝试了这个并得到了这个错误。

from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager , process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layput import LAParams



def to_txt(pdf_path):
    input_ = file(pdf_path , 'rb')
    output = StringIO()

    manager = PDFResourceManager()
    converter = TextConverter(manager, output, laparams = LAParams())
    process_pdf(manager, converter, input_)

    return output.getvalue()

b = to_txt(rb"C:\Users\Jasvinder Singh\Desktop\HACK-IN REPORT.docx")

ImportError: cannot import name 'process_pdf' from 'pdfminer.pdfinterp' (C:\Users\Jasvinder Singh\Anaconda3\lib\site-packages\pdfminer\pdfinterp.py)

score 1 · Accepted Answer

请参阅文档和此关于错误的评论。

该process_pdf方法已被替换PDFPage.get_pages()。

python - 如何修复“无法从'pdfminer.pdfinterp'导入名称'process_pdf'”错误

1 回答 1

Related

Reference