java - Tesseract：在 hOCR 文件中获取单词置信度 (x_wconf)

Question

我目前正在使用 Java 通过命令行调用 Tesseract，输出模式设置为 hOCR。我几乎不知道任何与 C 编程相关的东西，虽然我可以阅读源代码，但仅此而已。

我希望能够在 hOCR 文件中获取单词置信度信息。我在网上找到了一些“答案”。从在设置文件中设置值到更改和重新编译源。

我正在使用最新版本的 Tesseract，如何从 Java 中获得信心 (x_wconf) 这个词？

score 0 · Accepted Answer

hOCR 是 HTML，因此您需要一个 HTML 解析器来提取您想要的属性。尝试jsoup、HtmlCleaner或HTML Parser。

1 回答 1