2

我正在训练一种谷歌代码中不存在的新语言,并且正在制作单词列表,但它没有解释列表是关于什么的......我的意思是它是训练 tiff 中的单词列表图像还是整个语言中的单词列表?

4

1 回答 1

2

从文档中:

Tesseract 为每种语言使用多达 8 个字典文件。这些都是可选的,并帮助 Tesseract 确定不同可能字符组合的可能性。

字典有很多种,一开始可以忽略。

其中一本字典应该包含几乎所有的单词,而其他字典应该包含最流行的单词。其余的包含其他内容。

如果我知道您正在为哪种语言创建训练数据,我可以提供一些指示。

但重申一下:你不需要它们中的任何一个。

请参阅文档的相关部分

于 2013-12-10T00:01:59.037 回答