如何使用Java确定PDF页面是包含文本还是纯图片?
我搜索了许多论坛和网站,但我还没有找到答案。
是否可以从 PDF 中提取文本,以了解页面是图片格式还是文本格式?
PdfReader reader = new PdfReader(INPUTFILE);
PrintWriter out = new PrintWriter(new FileOutputStream(OUTPUTFILE));
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
// here I want to test the structure of the page !!!! if it's possible
out.println(PdfTextExtractor.getTextFromPage(reader, i));
}