0

在 django 中,我得到了用户上传的文件input_pdf = request.FILES['pdf'],我想用pdftextract库提取字段文本,pdf = XPdf(input_pdf)但它给出了一个错误:TypeError: _getfullpathname: path should be string, bytes or os.PathLike, not InMemoryUploadedFile. 我应该如何获取用户上传文件的路径或如何使用pdftextract数据类型InMemoryUploadedFile
我必须说,对于本地文件pdftextract,使用以下代码提取文本:

from pdftextract import XPdf
file_path = "examples/pubmed_example.pdf"
pdf = XPdf(file_path)
txt = pdf.to_text()
print(txt)
4

1 回答 1

0

看起来您正在尝试解码 PDF 文件对象,但 XPdf 需要文件路径。您应该将文件保存到磁盘上的路径(您可以打开文件路径作为写入并将上传的文件读取到其中),然后在路径上调用 XPdf。

于 2021-09-08T19:04:13.623 回答