在使用 pypdf2 解析 pdf 文件时,它会在换行符中读取诸如 mm-dd-yy 之类的 hifenated 单词:
毫米
-
dd
-
年年
这是我的代码:
import PyPDF2
def getPDFContent(path):
pdf = PyPDF2.PdfFileReader(file(path, "rb"))
content = ""
content += pdf.getPage(0).extractText() + "\n"
return content
我怎样才能克服这个问题并将它们打印在同一行?