我正在使用 google Tesseract 引擎 python binder https://code.google.com/p/python-tesseract/来提取图像中的文本(http://ceoarunachal.nic.in/eci/affidavits/s02/ge/ 1/KIREN%20RIJIJU/KirenRijiju_SC1.jpg )。我正在尝试将其数字化以获取数千张与其相似的图像。但是 Tesseract 无法正确提取其中的手写文本,因为它主要是为机器文本设计的。
有什么方法可以优化当前图像,这将有助于通过训练数据来提高识别率,还是有其他更好的工具可以做到这一点?