2

我想从 PDF 的第一页创建图像。我正在使用 PDFBox 。在网上研究后,我发现了以下代码片段:

public class ExtractImages
 {
    public static void main(String[] args)
    {
        ExtractImages obj = new ExtractImages();
            try 
            {
                obj.read_pdf();
            }

            catch (IOException ex)
            {
                System.out.println("" + ex);
            }

    }

    void read_pdf() throws IOException 
    {
            PDDocument document = null; 
            try 
            {
                document = PDDocument.load("H:\\ct1_answer.pdf");
            }
            catch (IOException ex)
            {
                System.out.println("" + ex);
            }

            List<PDPage>pages =  document.getDocumentCatalog().getAllPages();
            Iterator iter =  pages.iterator(); 

            int i =1;
            String name = null;

            while (iter.hasNext()) 
            {
                PDPage page = (PDPage) iter.next();
                PDResources resources = page.getResources();
                Map pageImages = resources.getImages();
                if (pageImages != null) 
                { 
                    Iterator imageIter = pageImages.keySet().iterator();
                    while (imageIter.hasNext()) {
                        String key = (String) imageIter.next();
                        PDXObjectImage image = (PDXObjectImage) pageImages.get(key);
                        image.write2file("H:\\image" + i);
                        i ++;
                    }
                }
            }

        }

 } 

在上面的代码中没有错误。但是这段代码的输出什么都没有。我原以为上面的代码会产生一系列图像,这些图像将保存在 H 盘中。但是从这段代码生成的代码中没有图像。为什么 ?

4

2 回答 2

7

不要试图变得粗鲁,以下是您发布的代码在其主工作循环中的作用:

PDPage page = (PDPage) iter.next();
PDResources resources = page.getResources();
Map pageImages = resources.getImages();

它从 PDF 文件中获取每一页,从页面中获取资源,并提取嵌入的图像。然后它将这些写入磁盘。

如果您想成为一名称职的软件开发人员,您需要能够研究和阅读文档。对于 Java,这意味着 Javadocs。谷歌搜索PDPage(或明确访问 apache 站点)会找到 PDPage 的 Javadoc

在该页面上,您可以找到将 图像convertToImage()转换PDPage为图像的方法的两个版本。问题解决了。

除了 ...

不幸的是,他们java.awt.image.BufferedImage会根据您提出的其他问题返回一个问题,因为您正在使用的 Android 平台不支持它。

简而言之,你不能在 Android 上使用 Apache 的 PDFBox 来做你想做的事情。

在 StackOverflow 上搜索你会发现同样的问题以不同的形式多次提出,这将导致你这样做:https ://stackoverflow.com/questions/4665957/pdf-parsing-library-for-android/4766335#4766335与以下您会感兴趣的答案:https ://stackoverflow.com/a/4779852/302916

不幸的是,即使是上述答案所说的那个也可以工作......不是很用户友好;没有“如何”或我能找到的文档。它也被标记为“alpha”。对于虚心的人来说,这可能不是什么东西,因为它需要阅读和理解他们的代码才能开始使用它。

于 2013-02-14T20:42:50.447 回答
1

我复制了上面的代码并将以下库添加到我在 Eclipse 中的构建路径中。这是工作。

Apache PDFBox 1.7.1 库

Commons Logging 1.1.1 库

于 2013-02-14T06:49:47.370 回答