2

我正在使用 Apache TIKA Server 对 PDF 文件进行 OCR。

我对hOCR输出感兴趣,但只能成功获得纯文本格式的输出。

按照wiki代码,我正在尝试使用X-Tika-OCR...HTTP 标头配置 Tesseract。在这种情况下,我使用的是X-Tika-OCRoutputType: hocrHTTP 标头,但我得到了没有 HOCR 标记的纯文本输出或 html 输出。

我尝试了端点/tika/rmeta端点。

curl我使用的命令:

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/tika" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

curl -v -X PUT --data-binary @file.pdf \
     "http://tika-server:8081/rmeta" \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-OCRoutputType: hocr"

我还尝试将Accept标题设置为 text/plain、text/html text/xhtml 和 text/hocr。没有工作。最后一个出现错误。

我在用:

  • 阿帕奇蒂卡 1.22
  • 正方体 4.1.0-3.1.x86_64
  • 红帽 7
4

1 回答 1

3

通过检查 的集成测试代码TikaResourceTest,我意识到缺少 HTTP 标头。正确的命令应包含X-Tika-PDFOcrStrategy: ocr_onlyHTTP 标头。在ocrpdf 解析器文档中查看更多信息

因此,命令将是:

curl -v -X PUT \
     --data-binary @file.pdf \
     -H "Content-Type: application/pdf" \
     -H "X-Tika-PDFOcrStrategy: ocr_only" \
     -H "X-Tika-OCROutputType: hocr" \
     "http://tika-server:8081/tika"

于 2020-02-06T07:08:36.877 回答