有没有办法告诉 Tess4J 只 OCR 一定数量的页面/字符?
我可能会使用200 多页 PDF,但我真的只想对第一页进行 OCR,如果那样的话!
据我了解,常见的样本
package net.sourceforge.tess4j.example;
import java.io.File;
import net.sourceforge.tess4j.*;
public class TesseractExample {
public static void main(String[] args) {
File imageFile = new File("eurotext.tif");
Tesseract instance = Tesseract.getInstance(); // JNA Interface Mapping
// Tesseract1 instance = new Tesseract1(); // JNA Direct Mapping
try {
String result = instance.doOCR(imageFile);
System.out.println(result);
} catch (TesseractException e) {
System.err.println(e.getMessage());
}
}
}
将尝试将整个 200 多个页面OCR转换为单个字符串。
对于我的特殊情况,这比我需要做的要多得多,我担心如果我让它完成所有 200 多页然后只完成前 500 页左右可能需要很长时间。substring