Tesseract OCR 引擎有时会输出没有意义的文本,我想设计一种算法来忽略任何没有意义的文本或单词,下面是我想忽略的某种输出文本,我的简单解决方案是计算单词以“”分隔的已识别文本和包含太多单词的文本将是垃圾(提示:我正在扫描最多包含 40 个单词的图像)任何想法都会有所帮助,谢谢。
wo:>"|axnoA1wvw\
ldflfig
°J!9O‘ !P99W M9N 6 13!-|15!Cl ‘I-/Vl
978 89l9 Z0 3+ 3 'l9.l.
97 999 VLL lLOZ+ 3 9l!q°lN
wo0'|axno/(@|au1e>1e: new;
1=96r2a1ey\1 1uauud0|e/\e(]
|8UJB){ p8UJL|\7'