我正在开发可识别 ISBN 编号的 iPhone 应用程序(ISBN:978-83-7380-900-0)我为此使用了 tesseract,但它运行得不是很好。我可以看到其他应用程序,使用相同的引擎工作得更好。
限制我使用此配置行的字符: tess->SetVariable("tessedit_char_whitelist", "SN:0123456789X-"); 所以所有的“I”都被转换为“1”,而“B”被转换为8。使用它不会让那些字母出错,这对我来说并不重要。之后,我使用正则表达式查找已识别文本的正确部分。
我还裁剪了图像,因此 tesseract 仅识别图像的一部分,其中 isbn 可见(我将颜色矩形放在相机叠加层上,因此用户必须将代码放置在正确的位置)我还将图像的大小调整为 1000px 宽度(也尝试了其他尺寸)
当光线很好时它工作得很好,但是当光线不完美时很难正确识别。
isbn 数字的最后一位是控制和。
我该怎么做才能让它更好地工作?有没有办法说 tesserect 仅在给定的正则表达式中识别文本?也许我应该先对图像做点什么?
无法正确识别的示例图像:http:
//img412.imageshack.us/i/img0367si.jpg/
http://img264.imageshack.us/i/img0361d.jpg/