ocr - Tesseract Ocr Engine Cube 模式 - 训练 Tesseract

Question

您能解释一下 Tesseract ocr Engine 上的多维数据集模式和多维数据集数据文件，使用它们有什么优势吗？

我怎样才能为希腊语训练 tesseract 以获得更好的结果？

score 6 · Accepted Answer

对于那些可能仍然感兴趣的人。在 Tesseract 的网站上，有针对不同文件的标准训练数据集。

此处描述了培训程序（适用于 3.01 版）

就 Cube 而言，与 Tesseract 相比，还有另一个引擎。它消耗更多资源，速度较慢，但效果更好。

数据文件 - 文件集，最终应导致（合并到）经过训练的数据文件。

score 3 · Accepted Answer

在 tesseract-ocr-extradocs 项目 wiki 上有对 Cube 引擎模式所需的各种训练文件的解释：

在那里，您可以找到有关如何创建在 Cube 模式下训练所需文件的详细（但不完整）信息。还有一些关于神经网络文件格式的信息可能有用：

通过使用神经网络而不是自适应分类器，立方体模式通常会给您更好的识别结果。

我从来没有自己创建过 Cube 训练文件，所以我无法为您提供有关如何创建这些文件的更详细信息。

score 2 · Accepted Answer

对于 Tesseract 4+（使用 LSTM）

我不完全确定多维数据集模式，但--oem 1您可以启用新的 LSTM 引擎并利用以下解决方案：