1

在使用 pypdf2 解析 pdf 文件时,它会在换行符中读取诸如 mm-dd-yy 之类的 hifenated 单词:

毫米

-

dd

-

年年

这是我的代码:

import PyPDF2    
def getPDFContent(path):
    pdf = PyPDF2.PdfFileReader(file(path, "rb"))    
    content = ""
    content += pdf.getPage(0).extractText() + "\n"    
    return content

我怎样才能克服这个问题并将它们打印在同一行?

4

0 回答 0