tesseract - 如何使斜杠在 HOCR 输出 (Tesseract OCR) 中充当单词分隔符？

翻译自：https://stackoverflow.com/questions/57120377 2019-07-19T22:51:33.470

195 次

有没有办法告诉 Tesseract OCR 将某些字符视为 HOCR 输出中的单词分隔符？

例如，假设我有一份关于 Scranton/Wilkes-Barre RailRiders 的文档，并且我希望将斜杠视为单词分隔符。所以代替这个输出：

<span class='ocrx_word' id='word_1_2' title='bbox 186 324 1201 395; x_wconf 85' lang='eng' dir='ltr'>Scranton/Wilkes-Barre</span>

我需要看起来像这样的输出（估计 bboxes）：

<span class='ocrx_word' id='word_1_2' title='bbox 186 324 799 395; x_wconf 85' lang='eng' dir='ltr'>Scranton</span>
<span class='ocrx_word' id='word_1_3' title='bbox 800 324 820 395; x_wconf 85' lang='eng' dir='ltr'>/</span>
<span class='ocrx_word' id='word_1_4' title='bbox 821 324 1201 395; x_wconf 85' lang='eng' dir='ltr'>Wilkes-Barre</span>

我尝试了两种可能的解决方案：

将“tessedit_char_blacklist”设置为“/”。这不起作用，因为 Tesseract 只是将斜杠更改为小写 L。
将“chs_trailing_punct1”设置为“).,;:?!/”（默认字符加上斜线）。这根本没有改变输出。

tesseract - 如何使斜杠在 HOCR 输出 (Tesseract OCR) 中充当单词分隔符？

0 回答 0

Related

Reference