2

Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求标头参数,例如X-Tika-PDFOcrStrategy. 例如:

$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"

从许多关于 tika 的不同文档中,我发现了这些记录在案的附加标头参数:

X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only  |  ocr_and_text_extraction
X-Tika-OCRoutputType: hocr

但是似乎没有关于如何使用X-Tika-.....?标头参数或支持哪些参数以及哪些不支持的文档。

例如,我想知道是否可以使用以下内容覆盖 ImageType 模式或 DPI:

X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100

我的问题是:支持哪些标头参数以及这些参数遵循哪些命名约定?

4

1 回答 1

2

处理X-Tika-OCRX-Tika-PDF标头的代码是TikaResource.processHeaderConfig

然后,这些标头后缀和值通过反射映射到TesseractOCRConfigPDFParserConfig配置对象。

因此,要查看X-Tika您可以设置哪些标题,请在您想要调整的配置类上查找选项(TesseractPDF),然后构建名称,然后设置标题。如果您不确定该选项的作用或它需要什么值,请查看 JavaDocs 以了解将被调用的底层 setter 方法。

例如,PDF 上的setExtractInlineImages映射到X-Tika-PDFextractInlineImages

于 2020-05-26T03:47:56.723 回答