我试图提取以使用我所有的盒子文件来提取字符,当我尝试这一行时
unicharset_extractor *.box
它给了我一个错误,它找不到 *.box 而不是加载所有盒子文件。
该特定程序不支持这种语法。您必须链接所有盒子文件的名称并提供给它,例如:
unicharset_extractor lang.fontname.exp0.box lang.fontname.exp1.box ...
您可以编写一个脚本(例如train.ps1)来自动化该过程。
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
我终于为此制作了自己的工具。[链接] http://code.google.com/p/serak-tesseract-trainer/