16

我一直在使用 Tesseract 3.0.2 OCR SDK 进行图像文本提取。但是,如果我使用中文文本图像并通过 OCR,则 Tesseract 不会为我提供中文字符,而不是我得到数字和英文字符。但我需要我正在使用的图像中显示的汉字。

我怎样才能做到这一点?有什么方法可以获取汉字而不是其他字符?

4

1 回答 1

20

您需要下载中文训练数据(它将是一个类似chi_sim.traineddata的文件)并将其添加到您的tessdata文件夹中。

下载文件 https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

并像这样使用

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

如果您有任何问题,您可以从https://github.com/aryansbtloe/ExperimentWithTesseract.git下载我的 tessaract 实验(支持中文)

我已经测试过这个......希望你会发现这很有用。

于 2013-05-16T08:43:05.163 回答