apache-tika - Apache Tika 服务器 - 请求标头参数？

Question

Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求标头参数，例如X-Tika-PDFOcrStrategy. 例如：

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

从许多关于 tika 的不同文档中，我发现了这些记录在案的附加标头参数：

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但是似乎没有关于如何使用X-Tika-.....?标头参数或支持哪些参数以及哪些不支持的文档。

例如，我想知道是否可以使用以下内容覆盖 ImageType 模式或 DPI：

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是：支持哪些标头参数以及这些参数遵循哪些命名约定？

score 2 · Accepted Answer

处理X-Tika-OCR和X-Tika-PDF标头的代码是TikaResource.processHeaderConfig。

然后，这些标头后缀和值通过反射映射到TesseractOCRConfig和PDFParserConfig配置对象。

因此，要查看X-Tika您可以设置哪些标题，请在您想要调整的配置类上查找选项（Tesseract或PDF），然后构建名称，然后设置标题。如果您不确定该选项的作用或它需要什么值，请查看 JavaDocs 以了解将被调用的底层 setter 方法。

例如，PDF 上的setExtractInlineImages映射到X-Tika-PDFextractInlineImages

apache-tika - Apache Tika 服务器 - 请求标头参数？

1 回答 1

Related

Reference