6

您能解释一下 Tesseract ocr Engine 上的多维数据集模式和多维数据集数据文件,使用它们有什么优势吗?

我怎样才能为希腊语训练 tesseract 以获得更好的结果?

4

3 回答 3

6

对于那些可能仍然感兴趣的人。在 Tesseract 的网站上,有针对不同文件的标准训练数据集。

https://code.google.com/p/tesseract-ocr/downloads/list?num=100&start=100

此处描述了培训程序(适用于 3.01 版)

https://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3

就 Cube 而言,与 Tesseract 相比,还有另一个引擎。它消耗更多资源,速度较慢,但​​效果更好。

数据文件 - 文件集,最终应导致(合并到)经过训练的数据文件。

于 2013-11-21T13:05:00.717 回答
3

在 tesseract-ocr-extradocs 项目 wiki 上有对 Cube 引擎模式所需的各种训练文件的解释:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/Cube

在那里,您可以找到有关如何创建在 Cube 模式下训练所需文件的详细(但不完整)信息。还有一些关于神经网络文件格式的信息可能有用:

https://code.google.com/p/tesseract-ocr-extradocs/wiki/nnFileFormat

通过使用神经网络而不是自适应分类器,立方体模式通常会给您更好的识别结果。

我从来没有自己创建过 Cube 训练文件,所以我无法为您提供有关如何创建这些文件的更详细信息。

于 2014-05-19T09:49:26.410 回答
2

对于 Tesseract 4+(使用 LSTM)

我不完全确定多维数据集模式,但--oem 1您可以启用新的 LSTM 引擎并利用以下解决方案:

tl-dr

  • git clone git@github.com:tesseract-ocr/tessdata.git
  • 选择你想要的语言文件
  • 将其移动到项目的tessdata目录中
于 2018-06-20T15:02:51.593 回答