Apache Tika 服务器提供了一个 Rest API 来从文档中提取文本。也可以设置特定的请求标头参数,例如X-Tika-PDFOcrStrategy
. 例如:
$ curl -T test/Dokument01.pdf http://localhost:9998/tika --header "X-Tika-PDFOcrStrategy: ocr_only"
从许多关于 tika 的不同文档中,我发现了这些记录在案的附加标头参数:
X-Tika-OCRLanguage: eng
X-Tika-PDFextractInlineImages: true | false
X-Tika-PDFOcrStrategy: ocr_only | ocr_and_text_extraction
X-Tika-OCRoutputType: hocr
但是似乎没有关于如何使用X-Tika-.....?
标头参数或支持哪些参数以及哪些不支持的文档。
例如,我想知道是否可以使用以下内容覆盖 ImageType 模式或 DPI:
X-Tika-PDFocrImageType: rgb
X-Tika-PDFocrDPI: 100
我的问题是:支持哪些标头参数以及这些参数遵循哪些命名约定?