我正在设置一个服务器来使用 tesseract 执行大量自动 OCR,并且我想对结果进行一些后处理。
在理论方面有很多关于此的资源,但在实践方面我没有找到太多。
我想你可以做一些基本的事情,比如:
- 连续消除三个相同的字母
- 用所有元音消除“单词”
- 消除超过一定长度的“单词”
- 等等。
我没有考虑太多,但是 OCR 文本被输入到搜索系统中,所以保持字图很小是一件好事,消除或修复明显错误的词也是如此。
如果重要的话,内容本身就是用英文写的法庭文件。所以时不时会有专有名词,但词的种类可能并不多,而且字体可能相当稳定。
我应该知道的任何指针或好的资源?