python-2.7 - 使用 Python 从 PDF 中读取特殊字符和字体

翻译自：https://stackoverflow.com/questions/50465764 2018-05-22T10:45:54.793

656 次

我有一个 PDF，其中某些表格行包含特殊字符和字体，例如. 有什么方法可以正确阅读这些内容。

from tabula import read_pdf

df = read_pdf("Tables PDF.pdf", pages = '5', lattice = True, multiple_tables = True, encoding = 'utf-8-sig')

我尝试了几种类型的编码utf-8, ascii, utf-8-sig, ISO-8859-1. 让我知道是否还有其他出路。

还尝试使用以下方法分别读取其中一个值并进行更改：

df1.iloc[3, 6] = df1.iloc[3, 6].encode("utf-8", "replace")

没有成功。任何帮助将不胜感激。

0 回答 0