我当前的shell脚本是这样的:
for i in *.pdf
do
convert -density 400 $i -depth 8 ${i/pdf/jpg}
done
for j in *.jpg
do
tesseract -l eng $j ${j/.jpg}
rm $j
mv ${j}.txt textfile
done
所以它大致做的是,对于每个 pdf 文件,它将其转换为 jpg 文件,对于每个 jpg 文件,我使用 tesseract 将其转换为原始文本文件。从 pdf 到 jpg 的转换不会出现错误,但是 tesseract 可能会报告错误,例如:“由于已加入而取消了长度为 0 的重复”。我的脚本从那里停止......有没有办法让我的脚本在看到某种错误报告时跳过?所以我不需要转录损坏的 jpg 文件并想跳过它们。任何形式的帮助将不胜感激!