apache-tika - 如何更改 Tika 传递给 Tesseract OCR 的语言参数？

Question

目前我正在使用 tika-app-1.16.jar 对我的 PDF 进行 OCR（与 Tesseract 结合使用时）： java -jar tika-app-1.16.jar /tmp/testing/input.pdf

但是，默认情况下它只支持英语。我想找到一种方法来传递不同的语言。

至于文档：

使用 OCR 解析器时，Tika 将使用以下默认设置：

正方体安装路径 = ""

语言词典 = "eng"

页面分割模式=“1”

最小文件大小 = 0

最大文件大小 = 2147483647

超时 = 120

要更改这些设置，您可以修改 tika-parser/src/main/resources/org/apache/tika/parser/ocr 中现有的 TesseractOCRConfig.properties 文件，或者通过创建自己的并将其放置在包 org/ 中来覆盖它类路径上的 apache/tika/parser/ocr。

值得注意的是，在使用其中一个可执行 JAR（tika-app 或 tika-server JAR）时执行此操作将要求您在不使用 -jar 命令的情况下执行它们。例如，tika-app 或 tika-server 分别如下所示：

java -cp /path/to/your/classpath:/path/to/tika-app-XXjar org.apache.tika.cli.TikaCLI

java -cp /path/to/your/classpath:/path/to/tika-server-1.7-SNAPSHOT.jar org.apache.tika.server.TikaServerCli

和

对于 Tika App 的用户，除了 sytem 属性和环境变量之外，您还可以使用 --config=[tika-config.xml] 选项来选择不同的 Tika Config XML 文件来使用

对于 Tika Server 的用户，除了 sytem 属性和环境变量，您还可以使用 -c [tika-config.xml] 或 --config [tika-config.xml] 选项来选择不同的 Tika Config XML要使用的文件

但是，我无法找到可以更改 Tesseract OCR 使用的语言的 tika-config.xml 的工作示例。有没有可用的例子？

score 1 · Accepted Answer

我正在使用下一个“拐杖”-用具有相同名称的 bash 脚本替换原始tesseract文件，该脚本替换运行参数 =）

我的 /usr/bin/tesseract 文件：

#!/bin/sh

args=$@
args=${args/eng/rus} #replace eng => rus 
export TESSDATA_PREFIX=/usr/share/tesseract/
# tesseract_ori <-- original tesseract 
/usr/bin/tesseract_ori $args >> /tmp/tess.log 2>&1

apache-tika - 如何更改 Tika 传递给 Tesseract OCR 的语言参数？

1 回答 1

Related

Reference