我正在使用 pdfbox 从此pdf中提取图像和文本。我有以下用于提取文本的代码:
PDFTextStripper p = new PDFTextStripper();
String thistext=p.getText(document);
哪个正确提取文本。但是,当我尝试使用ExtractImages
类从同一个 pdf 中提取图像时,生成的图像都是 pdf 的所有页面,而不是实际的图像。那是因为pdf可能是扫描副本的原因吗?如果这是真的,那么文本是如何被提取的?
我相信它被扫描的事实是你的问题。虽然我看到扫描的 PDF 检测文本(并使其突出显示),但它仍然是图像。为了检验这个假设,我会尝试使用已知好的 PDF,例如这个。