5

我将tesseract用于 OCR,主要用于发票。但是,tesseract 需要在开始处理文件之前指定语言。

我以为我将根据预定义的默认语言执行 ocr。然后我想使用生成的文本来检查使用的是哪种语言。如果它不是默认语言,我会再次对其进行处理,以便从 tesseract 中获得更好的结果。

但是如何实现语言检测算法呢?有我可以使用的 C++ 库吗?

4

3 回答 3

3

本文“ OCR 应用程序的自然语言识别”描述了与您的要求类似的识别任务所涉及的技术。

于 2011-11-18T02:38:25.490 回答
3

我不确定这是否会有所帮助,因为该库使用 Java。但我发现它真的很酷,因为它能够从给定的文本中检测出大约 50 种语言并且具有相当不错的精度水平。你可能想看看它,因为它是开源的,如果你的应用程序只需要用 C++ 编写,你可以用 C++ 重写代码并将其返回给开源社区。

这是相同的链接:

http://code.google.com/p/language-detection/

注意:它使用 Apache Nutch 和 Tika 库进行分析。

于 2012-10-09T07:11:32.133 回答
0

您可能想阅读我的论文The WiLI benchmark dataset for writing language Identification并尝试lidtk

TL;DR:试试 CLD-2。

于 2018-01-25T17:35:43.127 回答