我在 tesseract 中使用了两个经过训练的数据文件来识别两种语言。但是因为准确性不够好,我训练了 tesseract 并生成了一个新的训练数据文件,我想将它与我使用的两种语言文件之一合并。所以我的问题是:如何将新的训练数据文件与此处找到的文件之一合并:https ://code.google.com/p/tesseract-ocr/downloads/list 。任何帮助?
您可以单独解压现有.traineddata
组件并合并组件;但是,我不确定这是否可行。您可以在命令行中创建您的ell1.traineddata
并将其与现有的一起指定,例如:
tesseract image output -l ell+ell1