我正在尝试使用 tess4j 扫描多页 PDF 文件。我使用以下代码:
PdfUtilities.splitPdf(imageFile, outputFile, startPage, endPage);
List<IIOImage> imageList = ImageIOHelper.getIIOImageList(outputFile);
String result = instance.doOCR(imageList, null);
但是,由于速度问题,我只对扫描每一页的上半部分感兴趣(实际上,甚至更少,但为了争论)。API 指定我当前null
可以通过的位置Rectangle rect
,但我没有看到对矩形坐标所指的内容的引用。PDF 来自不同的提供商,如果这有什么不同的话。