在 django 中,我得到了用户上传的文件input_pdf = request.FILES['pdf']
,我想用pdftextract
库提取字段文本,pdf = XPdf(input_pdf)
但它给出了一个错误:TypeError: _getfullpathname: path should be string, bytes or os.PathLike, not InMemoryUploadedFile
. 我应该如何获取用户上传文件的路径或如何使用pdftextract
数据类型InMemoryUploadedFile
。
我必须说,对于本地文件pdftextract
,使用以下代码提取文本:
from pdftextract import XPdf
file_path = "examples/pubmed_example.pdf"
pdf = XPdf(file_path)
txt = pdf.to_text()
print(txt)