java - 使用pdfbox，为什么可以提取文本，但不能提取图像

Question

我正在使用 pdfbox 从此pdf中提取图像和文本。我有以下用于提取文本的代码：

 PDFTextStripper p = new PDFTextStripper();
 String thistext=p.getText(document);

哪个正确提取文本。但是，当我尝试使用ExtractImages类从同一个 pdf 中提取图像时，生成的图像都是 pdf 的所有页面，而不是实际的图像。那是因为pdf可能是扫描副本的原因吗？如果这是真的，那么文本是如何被提取的？

score 1 · Accepted Answer

我相信它被扫描的事实是你的问题。虽然我看到扫描的 PDF 检测文本（并使其突出显示），但它仍然是图像。为了检验这个假设，我会尝试使用已知好的 PDF，例如这个。

1 回答 1