我正在训练一种谷歌代码中不存在的新语言,并且正在制作单词列表,但它没有解释列表是关于什么的......我的意思是它是训练 tiff 中的单词列表图像还是整个语言中的单词列表?
问问题
1528 次
从文档中:
Tesseract 为每种语言使用多达 8 个字典文件。这些都是可选的,并帮助 Tesseract 确定不同可能字符组合的可能性。
字典有很多种,一开始可以忽略。
其中一本字典应该包含几乎所有的单词,而其他字典应该包含最流行的单词。其余的包含其他内容。
如果我知道您正在为哪种语言创建训练数据,我可以提供一些指示。
但重申一下:你不需要它们中的任何一个。
请参阅文档的相关部分