我目前正在使用 Java 通过命令行调用 Tesseract,输出模式设置为 hOCR。我几乎不知道任何与 C 编程相关的东西,虽然我可以阅读源代码,但仅此而已。
我希望能够在 hOCR 文件中获取单词置信度信息。我在网上找到了一些“答案”。从在设置文件中设置值到更改和重新编译源。
我正在使用最新版本的 Tesseract,如何从 Java 中获得信心 (x_wconf) 这个词?
hOCR 是 HTML,因此您需要一个 HTML 解析器来提取您想要的属性。尝试jsoup、HtmlCleaner或HTML Parser。