我正在尝试将curl
脚本转换为将 pdf 文件从grobid
服务器解析为requests
Python。
基本上,如果我grobid
按如下方式运行服务器,
./gradlew run
我可以使用以下内容curl
获取学术论文的解析 XML 的输出,example.pdf
如下所示
curl -v --form input=@example.pdf localhost:8070/api/processHeaderDocument
但是,我不知道如何将此脚本转换为 Python。这是我尝试使用requests
:
GROBID_URL = 'http://localhost:8070'
url = '%s/processHeaderDocument' % GROBID_URL
pdf = 'example.pdf'
xml = requests.post(url, files=[pdf]).text