我正在使用 tesseract 进行 OCR 并注意到,有时会发生分段错误,并且“显然”属于一起的字符被拆分为单独的字符串。
基于在一个文本行中找到的字符列表及其边界框以及初步 OCR 结果提示,这些字符中的哪些属于一个单词,我可以应用哪些算法来纠正分割错误或验证结果?
所以这是可用的数据:
List<Word> words;
for(Word word : words){
for(Char c : word.getChars()){
char ch = c.getValue();
Rectangle rect = c.getRect();
}
}