java - 在 Java 中从扫描的 PDF 文档中获取像素数据

Question

我有一些文件已用 Xerox 扫描仪数字化为 PDF 文件。使用 Java，我试图从中提取 RGB 像素数据，以用于图像识别应用程序。从头开始开发这个有点超出我的水平，所以我依靠 3rd 方库进行 PDF 处理。

到目前为止，我已经尝试了 2 个不同的库；PdfBox 和 PdfClown。

使用 PdfBox，我正在尝试使用该convertToImage()方法来获取BufferedImage. 使用 PdfClown 我正在尝试使用类中的render(page,size)方法Renderer来获取BufferedImage. 在这两种情况下，返回的图像都是空白的。所有像素均为白色 [ (r,g,b) = (255,255,255)]。

我已经能够从其他并非源自扫描的 pdf 文档中获得非空白的 BufferedImage，因此我怀疑问题出在扫描文档的格式上。

这是一个示例 PFD 文件：http ://www.filedropper.com/innlevering1

有谁知道如何解决这个问题？或者你能提供不同的方法吗？

score 0 · Accepted Answer

0

通过安装 JBIG2-plugin 解决了这个问题。现在一切正常。非常感谢您的帮助。

于 2016-03-05T21:19:06.587 回答

java - 在 Java 中从扫描的 PDF 文档中获取像素数据

1 回答 1

Related

Reference