python - 我正在尝试使用 pdfminer 在 python 中将数据提取为 HTML 元素

Question

我正在尝试使用 pdfminer 从 pdf 中将数据提取为 HTML，尽管我成功地从同一个 pdf 中提取文本现在我在将数据提取为 HTML 时遇到错误，我必须进一步过滤数据以将其分类为 CSV。这是脚本。

from io import StringIO  
from pdfminer.layout import LAParams  
from pdfminer.high_level import extract_text_to_fp  

output_string = StringIO  

with open('mini.pdf','rb') as fn:  
    extract_text_to_fp(fn, output_string, laparams=LAParams(), output_type='html', codec=None)

这是我得到的错误。点击这里

score 1 · Accepted Answer

StringIO以这种方式添加括号：output_string = StringIO() 这将调用类构造，并且代码可以使用它

python - 我正在尝试使用 pdfminer 在 python 中将数据提取为 HTML 元素

1 回答 1

Related

Reference