我有一些文件已用 Xerox 扫描仪数字化为 PDF 文件。使用 Java,我试图从中提取 RGB 像素数据,以用于图像识别应用程序。从头开始开发这个有点超出我的水平,所以我依靠 3rd 方库进行 PDF 处理。
到目前为止,我已经尝试了 2 个不同的库;PdfBox 和 PdfClown。
使用 PdfBox,我正在尝试使用该convertToImage()
方法来获取BufferedImage
. 使用 PdfClown 我正在尝试使用类中的render(page,size)
方法Renderer
来获取BufferedImage
. 在这两种情况下,返回的图像都是空白的。所有像素均为白色 [ (r,g,b) = (255,255,255)
]。
我已经能够从其他并非源自扫描的 pdf 文档中获得非空白的 BufferedImage,因此我怀疑问题出在扫描文档的格式上。
这是一个示例 PFD 文件:http ://www.filedropper.com/innlevering1
有谁知道如何解决这个问题?或者你能提供不同的方法吗?