我的软件需要读取一个固定长度的手写数字。
虽然我可以使用像Tesseract这样的通用库,但我相信还有更智能的东西。Tesseract 可能会将某些 1 或 7 误解为 I 或 l,而只需要数字的软件则不会。
知道只有数字(美式英语的书写方式),该算法可以专注于 10 个潜在匹配而不是数百个符号。
任何 OCRing 手写数字字段的经验?
你用什么开源库/软件获得了最好的结果?
我的软件需要读取一个固定长度的手写数字。
虽然我可以使用像Tesseract这样的通用库,但我相信还有更智能的东西。Tesseract 可能会将某些 1 或 7 误解为 I 或 l,而只需要数字的软件则不会。
知道只有数字(美式英语的书写方式),该算法可以专注于 10 个潜在匹配而不是数百个符号。
任何 OCRing 手写数字字段的经验?
你用什么开源库/软件获得了最好的结果?
来自Tesseract的常见问题解答:
如何只识别数字?
在 2.03 及更高版本中:
利用
TessBaseAPI::SetVariable("tessedit_char_whitelist", "0123456789");
在调用 Init 函数之前或将其放入名为的文本文件中
tessdata/configs/digits
:tessedit_char_whitelist 0123456789
然后你的命令行变成:
tesseract image.tif outputbase nobatch digits
警告:在新旧配置变量合并之前,您也必须拥有该
nobatch
参数。
但我认为,由于它是为打印而不是手写文本设计的,因此即使仅数字也可能会影响准确性。