python - 使用pypdf2解析pdf

问问题 2016-02-15T04:43:58.240

1326 次

在使用 pypdf2 解析 pdf 文件时，它会在换行符中读取诸如 mm-dd-yy 之类的 hifenated 单词：

毫米

年年

这是我的代码：

import PyPDF2    
def getPDFContent(path):
    pdf = PyPDF2.PdfFileReader(file(path, "rb"))    
    content = ""
    content += pdf.getPage(0).extractText() + "\n"    
    return content

我怎样才能克服这个问题并将它们打印在同一行？

python - 使用pypdf2解析pdf

0 回答 0

Related

Reference