我正在尝试使用 python 和 pdftotext 从 pdf 中提取文本。我有一些奇怪的角色,我不知道出了什么问题。例如,对于第 4 页的此 PDF:
它给了我这个:
“比利时”有问题。这是我用来从 pdf 中获取文本的函数(取自另一个 SO 帖子):
def pdf_to_string(file_object):
pdfData = file_object.read()
tf = tempfile.NamedTemporaryFile()
tf.write(pdfData)
tf.seek(0)
outputTf = tempfile.NamedTemporaryFile()
if (len(pdfData) > 0) :
out, err = subprocess.Popen(["pdftotext", "-layout", tf.name, outputTf.name ]).communicate()
return outputTf.read()
else :
return None
我应该使用其他工具吗?