您能解释一下 Tesseract ocr Engine 上的多维数据集模式和多维数据集数据文件,使用它们有什么优势吗?
我怎样才能为希腊语训练 tesseract 以获得更好的结果?
对于那些可能仍然感兴趣的人。在 Tesseract 的网站上,有针对不同文件的标准训练数据集。
https://code.google.com/p/tesseract-ocr/downloads/list?num=100&start=100
此处描述了培训程序(适用于 3.01 版)
https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
就 Cube 而言,与 Tesseract 相比,还有另一个引擎。它消耗更多资源,速度较慢,但效果更好。
数据文件 - 文件集,最终应导致(合并到)经过训练的数据文件。
在 tesseract-ocr-extradocs 项目 wiki 上有对 Cube 引擎模式所需的各种训练文件的解释:
https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube
在那里,您可以找到有关如何创建在 Cube 模式下训练所需文件的详细(但不完整)信息。还有一些关于神经网络文件格式的信息可能有用:
https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat
通过使用神经网络而不是自适应分类器,立方体模式通常会给您更好的识别结果。
我从来没有自己创建过 Cube 训练文件,所以我无法为您提供有关如何创建这些文件的更详细信息。
我不完全确定多维数据集模式,但--oem 1
您可以启用新的 LSTM 引擎并利用以下解决方案:
我建议使用Tesseract GitHub repo上提供的预训练模型。他们有各种各样的语言(看起来也支持希腊语!)
我自己没有尝试过,但GitHub 上的相关 Wiki看起来很可靠。
git clone git@github.com:tesseract-ocr/tessdata.git