如何获得每个检测到的字符的 % 置信度?通过四处搜索,我发现您应该将 save_blob_choices 设置为 T。所以我将它作为一行添加到 tessdata/configs 的 hocr 配置文件中,并用它调用 tesseract。这就是我在生成的 html 文件中得到的全部内容:
<span class='ocr_line' id='line_1' title="bbox 0 0 50 17"><span class='ocrx_word' id='word_1' title="bbox 3 2 45 15"><strong>31,835</strong></span>
如您所见,甚至每个单词都没有任何置信度注释。
我没有视觉工作室,所以我无法进行任何代码更改。但我也愿意接受描述代码更改以及如何在没有 VS 的情况下编译代码的答案。