0

我尝试用kraken ocr 一些图像。我为此准备了一个控制台命令。它很慢,所以我将它与 gnu 并行结合起来。

find temp/ -name '*.tif' -or -name '*.jpg' | parallel -j4 kraken -i {} {}.html binarize segment ocr -h

当我在终端中执行此操作时,它工作正常。当我在 java(eclipse) 中启动它时,执行在 30 张图像后停止。它不会终止。它留下了无效的进程。

String command = "find temp/ -name '*.tif' -or -name '*.jpg' | parallel -j4 kraken -i {} {}.html binarize segment ocr -h";
Process p = Runtime.getRuntime().exec(new String[]{"/bin/bash","-c",command});
p.waitFor() == 0;

我尝试了几种配置(更多的内存(eclipse 和执行),更少的线程),但没有任何帮助。

有人有避免失效进程或如何重新开始执行的想法吗?

4

1 回答 1

0

几乎可以肯定,问题在于您没有消耗进程的输出,导致其输出缓冲区被填满,因此进程停止。

尝试:

String command = "find temp/ -name '*.tif' -or -name '*.jpg' | parallel -j4 kraken -i {} {}.html binarize segment ocr -h";
Process p = Runtime.getRuntime().exec(new String[]{"/bin/bash","-c",command});
InputStream is = p.getInputStream();
// is.skip(Long.MAX_VALUE);  Doesn't work
while (is.read() != -1) { } // consume all process output
p.waitFor();

一个完整的解决方案也将处理错误流。这可以通过启动一个单独的线程来完成,该线程从错误流中读取/跳过输入。

(或者,您可以将输出重定向到/dev/nullbash 命令脚本中)。

于 2016-07-15T10:40:05.960 回答