我正在尝试使用 pdfminer 从 pdf 中将数据提取为 HTML,尽管我成功地从同一个 pdf 中提取文本现在我在将数据提取为 HTML 时遇到错误,我必须进一步过滤数据以将其分类为 CSV。这是脚本。
from io import StringIO
from pdfminer.layout import LAParams
from pdfminer.high_level import extract_text_to_fp
output_string = StringIO
with open('mini.pdf','rb') as fn:
extract_text_to_fp(fn, output_string, laparams=LAParams(), output_type='html', codec=None)
这是我得到的错误。 点击这里