我正在使用 Apache TIKA Server 对 PDF 文件进行 OCR。
我对hOCR输出感兴趣,但只能成功获得纯文本格式的输出。
按照wiki和代码,我正在尝试使用X-Tika-OCR...
HTTP 标头配置 Tesseract。在这种情况下,我使用的是X-Tika-OCRoutputType: hocr
HTTP 标头,但我得到了没有 HOCR 标记的纯文本输出或 html 输出。
我尝试了端点/tika
和/rmeta
端点。
curl
我使用的命令:
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/tika" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
curl -v -X PUT --data-binary @file.pdf \
"http://tika-server:8081/rmeta" \
-H "Content-Type: application/pdf" \
-H "X-Tika-OCRoutputType: hocr"
我还尝试将Accept
标题设置为 text/plain、text/html text/xhtml 和 text/hocr。没有工作。最后一个出现错误。
我在用:
- 阿帕奇蒂卡 1.22
- 正方体 4.1.0-3.1.x86_64
- 红帽 7