python - 使用 pdftotext 从 pdf 中提取文本

问问题 2014-04-15T16:32:34.417

886 次

我正在尝试使用 python 和 pdftotext 从 pdf 中提取文本。我有一些奇怪的角色，我不知道出了什么问题。例如，对于第 4 页的此 PDF：比利时 ...

它给了我这个： %HOJLXP ...

“比利时”有问题。这是我用来从 pdf 中获取文本的函数（取自另一个 SO 帖子）：

def pdf_to_string(file_object):
    pdfData = file_object.read()

    tf = tempfile.NamedTemporaryFile()
    tf.write(pdfData)
    tf.seek(0)

    outputTf = tempfile.NamedTemporaryFile()

    if (len(pdfData) > 0) :
        out, err = subprocess.Popen(["pdftotext", "-layout", tf.name, outputTf.name ]).communicate()
        return outputTf.read()
    else :
        return None

我应该使用其他工具吗？

python - 使用 pdftotext 从 pdf 中提取文本

0 回答 0

Related

Reference