我想在我的应用程序中添加字符识别功能,这就是为什么要问你什么是最好的和负担得起的 OCR SDK 。我查看了 ABBY FineReader Engine 10.0,但还没有按照官方网站的要求获得试用版!
我已经下载了 Asprise OCR SDK,但它不能识别西里尔符号..
如何在我的应用程序上实现字符识别?通过使用什么样的库、SDK、API 等等。
我想在我的应用程序中添加字符识别功能,这就是为什么要问你什么是最好的和负担得起的 OCR SDK 。我查看了 ABBY FineReader Engine 10.0,但还没有按照官方网站的要求获得试用版!
我已经下载了 Asprise OCR SDK,但它不能识别西里尔符号..
如何在我的应用程序上实现字符识别?通过使用什么样的库、SDK、API 等等。
有 Cunieform 和 Google 的 Tesseract OCR,两者都是免费的。我个人使用过 Tesseract,SDK 给了很多麻烦,所以最终决定使用该system()
函数从我的 C 程序中使用参数简单地调用 Tesseract 的命令行界面。
很多人在安装 Tesseract 时遇到困难,所以这里有一个简短的总结(第 2 版适用于我,如有必要插入适当的版本):
从 svn 下载以下内容: tesseract-2.00.tar.gz
, tesseract-2.00.exe6.tar.gz
,tesseract-2.00.eng.tar.gz
解压tesseract-2.00.tar.gz
到一个文件夹
解压缩tesseract-2.00.exe6.tar.gz
并移动到解tesseract-2.00.tar.gz
压缩的位置。这样会替换一些文件
同样解压缩tesseract-2.00.eng.tar.gz
并移动到tesseract-2.00.tar.gz
tessdata 文件夹将被替换的位置。
完成所有这些后,打开 tesseract.dsw 工作区,选择 All Files 并执行“Rebuild All”。这将需要一段时间并出现大量警告,但希望没有错误。
使用 DOS shell 的命令是tesseract picture.tif textfile -l eng
. 所以基本上将图像保存为 TIFF 文件,从程序中运行命令,然后从文本文件中读取 OCR 输出字符串。
如果您不需要识别非常复杂的文档,我可以向您推荐 Crystal OCR,他们按要求向我发送了 C++ Builder 示例。恕我直言,Tesseract 仍然有问题,尽管它当然是最好的免费 OCR。