1

对不起,如果我的标题没有多大意义,但这是我需要的:

所以我正在运行一个开源 ocr 程序 tesseract 并在命令提示符下使用它(我使用 windows),这样 'tesseract input.jgp output.txt' 这个命令将把 input.jpg 转换成 output.txt

我有数百个必须转换的输入文件。(甚至更多)有什么办法可以制作一个程序,以便它可以为不同的输入文件自动运行 tesseract 程序???

如果我的描述不够,我真的很抱歉,如果是这样,请告诉我还有什么我应该描述的。

谢谢

4

3 回答 3

1

使用 windows cmd shell,切换到包含 jpg 文件的文件夹并尝试

 for %i in (*.jpg) do tesseract %i %~ni.txt

这将为每个 jpg 文件运行 tesseract,并将输出放在具有相似名称的文本文件中,但后缀为“txt”而不是 jpg。要了解有关“for”命令的更多信息,请在命令行中键入“help for”。如果您需要有关 cmd shell 编程的教程,请试试这个:http ://www.csie.ntu.edu.tw/~r92092/ref/win32/win32scripting.html#Win32Scripting-Control-Constructs

于 2013-03-01T22:58:25.447 回答
0

VietOCR是 Tesseract 的 GUI 前端,提供对批量 ocr 功能的支持。

于 2013-03-02T02:42:45.787 回答
0

您的所有输入文件都在一个文件夹中吗?您可以创建一个批处理文件来遍历文件夹中的所有 jpg 文件并在这些文件上运行您的 tesseract 程序。

如果您想用某种语言编写“迭代器”程序,请查看该语言是否可以调用 Windows 程序。大多数语言至少有一种方法可以做到这一点。

仅供参考,如果您的输入文件不在单个文件夹中,则您必须有一种方法来指定“迭代器”程序中所有图像的位置。你如何做到这一点取决于你的输入文件是如何分布的。

于 2013-03-01T22:42:35.240 回答