这是一个很棒的工作示例项目;带有 Leptonica 预处理的
Tesseract OCR 示例 (Visual Studio) 带有 Leptonica 预处理的 Tesseract OCR 示例 (Visual Studio)
Tesseract OCR 3.02.02 API 可能会造成混淆,因此本文将指导您将 Tesseract 和 Leptonica dll 包含到 Visual Studio C++ 项目中,并提供一个示例文件,该文件采用图像路径进行预处理和 OCR。Leptonica 中的预处理脚本将输入图像转换为黑白书状文本。
设置
要将其包含在您自己的项目中,您需要引用头文件和 lib 并复制 tessdata 文件夹和 dll。
将 tesseract-include 文件夹复制到项目的根文件夹。现在在 Visual Studio 解决方案资源管理器中单击您的项目,然后转到项目>属性。
VC++ 目录>包含目录:
..\tesseract-include\tesseract;..\tesseract-include\leptonica;$(IncludePath) C/C++>预处理器>预处理器定义:
_CRT_SECURE_NO_WARNINGS;%(PreprocessorDefinitions) C/C++>Linker>Input>Additional Dependencies:
..\tesseract-include\libtesseract302.lib;..\tesseract-include\liblept168.lib;%(AdditionalDependencies) 现在您可以在项目文件中包含标头:
包括
包括
现在将 tesseract-include 中的两个 dll 文件和 Debug 中的 tessdata 文件夹复制到项目的输出目录中。
初始化 tesseract 时,如果 tessdata 文件夹的父文件夹 (!important) 还不是可执行文件的当前目录,则需要指定它的位置。您可以复制我的脚本,假设 tessdata 安装在可执行文件的文件夹中。
tesseract::TessBaseAPI *api = 新的 tesseract::TessBaseAPI(); api->Init("D:\tessdataParentFolder\", ... 示例
您可以编译提供的示例,该示例需要使用图像路径的一个命令行参数。preprocess() 函数使用 Leptonica 创建图像的黑白书状副本,这使得 tesseract 以 90% 的准确率工作。ocr() 函数显示了 Tesseract API 返回字符串输出的功能。toClipboard() 可用于将文本保存到 Windows 上的剪贴板。您可以将这些复制到您自己的项目中。