7

我正在尝试使用 pdfbox 从 pdf 中提取包含所有信息的文本。我得到了我想要的所有信息,除了颜色。我尝试了不同的方法来获取字体颜色(包括使用 PDFBox 获取文本颜色)。但不工作。现在我从 pdfBox 的 PageDrawer 类中复制了代码。但是RGB值也不正确。

protected void processTextPosition(TextPosition text) {

        Composite com;
        Color col;
        switch(this.getGraphicsState().getTextState().getRenderingMode()) {
        case PDTextState.RENDERING_MODE_FILL_TEXT:
            com = this.getGraphicsState().getNonStrokeJavaComposite();
            int r =       this.getGraphicsState().getNonStrokingColor().getJavaColor().getRed();
            int g = this.getGraphicsState().getNonStrokingColor().getJavaColor().getGreen();
            int b = this.getGraphicsState().getNonStrokingColor().getJavaColor().getBlue();
            int rgb = this.getGraphicsState().getNonStrokingColor().getJavaColor().getRGB();
            float []cosp = this.getGraphicsState().getNonStrokingColor().getColorSpaceValue();
            PDColorSpace pd = this.getGraphicsState().getNonStrokingColor().getColorSpace();
            break;
        case PDTextState.RENDERING_MODE_STROKE_TEXT:
            System.out.println(this.getGraphicsState().getStrokeJavaComposite().toString());
            System.out.println(this.getGraphicsState().getStrokingColor().getJavaColor().getRGB());
           break;
        case PDTextState.RENDERING_MODE_NEITHER_FILL_NOR_STROKE_TEXT:
            //basic support for text rendering mode "invisible"
            Color nsc = this.getGraphicsState().getStrokingColor().getJavaColor();
            float[] components = {Color.black.getRed(),Color.black.getGreen(),Color.black.getBlue()};
            Color  c1 = new Color(nsc.getColorSpace(),components,0f);
            System.out.println(this.getGraphicsState().getStrokeJavaComposite().toString());
            break;
        default:
            System.out.println(this.getGraphicsState().getNonStrokeJavaComposite().toString());
            System.out.println(this.getGraphicsState().getNonStrokingColor().getJavaColor().getRGB());
    }

我正在使用上面的代码。得到的值是 r = 0, g = 0, b = 0,内部 cosp 对象值为 [0.0],内部 pd 对象数组 = null 和 colorSpace = null。RGB 值始终为 -16777216。请帮我。提前致谢。

4

5 回答 5

5

我尝试了您发布的链接中的代码,它对我有用。我得到的颜色是 148.92、179.01001 和 214.965。我希望我可以给你我的 PDF 来使用,也许如果我将它存储在 SO 外部?我的 PDF 使用了一种淡蓝色,看起来很相配。它只是在 Word 2010 中创建并导出的一页文本,没有什么太密集的内容。

几个建议....

  1. 回想一下,返回的值是一个介于 0 和 1 之间的浮点数。如果一个值意外地转换为 int,那么这些值当然最终会包含几乎所有的 0。链接到代码的代码乘以 255 以获得 0 到 255 的范围.
  2. 正如评论者所说,PDF 文件最常见的颜色是黑色,即 0 0 0

这就是我现在能想到的,否则我有 pdfbox 和 fontbox 的 1.7.1 版本,就像我说的那样,我几乎遵循了你提供的链接。

编辑

根据我的评论,这可能是一种针对 pdf 文件的微创方式,例如color.pdf

在方法PDFStreamEngine.java中,processOperator可以在 try 块内执行

if (operation.equals("RG")) {
   // stroking color space
   System.out.println(operation);
   System.out.println(arguments);
} else if (operation.equals("rg")) {
   // non-stroking color space
   System.out.println(operation);
   System.out.println(arguments);
} else if (operation.equals("BT")) {
   System.out.println(operation);    
} else if (operation.equals("ET")) {
   System.out.println(operation);           
}

这将向您显示信息,然后由您根据需要处理每个部分的颜色信息。这是上面代码在运行时输出开头的片段color.pdf...

BT rG [COSInt(1), COSInt(0), CosInt(0)] RG [COSInt(1), COSInt(0), CosInt(0)] ET BT ET BT rG [COSFloat{0.573}, COSFloat{0.816}, COSFloat{0.314}] RG [COSFloat{0.573}, COSFloat{0.816}, COSFloat{0.314}] ET ......

您在上面的输出中看到一个空的 BT ET 部分,这是一个标记为 DEVICEGRAY 的部分。所有其他都为您提供 R、G 和 B 分量的 [0,1] 值

于 2012-12-24T19:13:02.977 回答
5

我也最终做了这样的事情。在下面粘贴代码,希望对某人有所帮助。

import java.io.IOException;
import java.util.List;
import org.apache.pdfbox.exceptions.COSVisitorException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.edit.PDPageContentStream;
import org.apache.pdfbox.pdmodel.font.PDFont;
import org.apache.pdfbox.pdmodel.font.PDType1Font;
import org.apache.pdfbox.pdmodel.graphics.PDGraphicsState;
import org.apache.pdfbox.util.PDFTextStripper;
import org.apache.pdfbox.util.ResourceLoader;
import org.apache.pdfbox.util.TextPosition;

public class Parser extends PDFTextStripper {

public Parser() throws IOException {
    super(ResourceLoader.loadProperties(
            "org/apache/pdfbox/resources/PageDrawer.properties", true));
    super.setSortByPosition(true);
}

public void parse(String path) throws IOException{
    PDDocument doc = PDDocument.load(path);
    List<PDPage> pages = doc.getDocumentCatalog().getAllPages();
    for (PDPage page : pages) {
        this.processStream(page, page.getResources(), page.getContents().getStream());
    }
}

@Override
protected void processTextPosition(TextPosition text) {
    try {
        PDGraphicsState graphicsState = getGraphicsState();
        System.out.println("R = " + graphicsState.getNonStrokingColor().getJavaColor().getRed());
        System.out.println("G = " + graphicsState.getNonStrokingColor().getJavaColor().getGreen());
        System.out.println("B = " + graphicsState.getNonStrokingColor().getJavaColor().getBlue());
    }
    catch (IOException ioe) {}

}

public static void main(String[] args) throws IOException, COSVisitorException {
    Parser p = new Parser();
    p.parse("/Users/apple/Desktop/123.pdf");
}

}
于 2014-04-28T07:51:20.073 回答
3

我在我的一个维护程序中发现了一些代码。
我不知道它是否适合你,请尝试一下。另请查看此链接http://pdfbox.apache.org/apidocs/org/apache/pdfbox/pdmodel/common/class-use/PDStream.html

它可以帮助你

PDDocument doc = null;
try {
    doc = PDDocument.load("C:/Path/To/Pdf/Sample.pdf");
    PDFStreamEngine engine = new PDFStreamEngine(ResourceLoader.loadProperties("org/apache/pdfbox/resources/PageDrawer.properties"));
    PDPage page = (PDPage)doc.getDocumentCatalog().getAllPages().get(0);
    engine.processStream(page, page.findResources(), page.getContents().getStream());
    PDGraphicsState graphicState = engine.getGraphicsState();
    System.out.println(graphicState.getStrokingColor().getColorSpace().getName());
    float colorSpaceValues[] = graphicState.getStrokingColor().getColorSpaceValue();
    for (float c : colorSpaceValues) {
        System.out.println(c * 255);
    }
}
finally {
    if (doc != null) {
        doc.close();
    }
于 2012-12-28T04:43:19.083 回答
1

使用 pdfbox 2.0+ 版本,必须在覆盖的 PDFTextStripper 的构造函数中选择这些运算符:

addOperator(new SetStrokingColorSpace());
addOperator(new SetNonStrokingColorSpace());
addOperator(new SetStrokingDeviceCMYKColor());
addOperator(new SetNonStrokingDeviceCMYKColor());
addOperator(new SetNonStrokingDeviceRGBColor());
addOperator(new SetStrokingDeviceRGBColor());
addOperator(new SetNonStrokingDeviceGrayColor());
addOperator(new SetStrokingDeviceGrayColor());
addOperator(new SetStrokingColor());
addOperator(new SetStrokingColorN());
addOperator(new SetNonStrokingColor());
addOperator(new SetNonStrokingColorN());

只有这样 getGraphicsState() 才会返回正确的信息。

https://pdfbox.apache.org/2.0/migration.html

于 2017-02-07T11:04:40.370 回答
0

这是PdfBox - 如何从文本中加载颜色,它应该能够用比其他答案更简单的解决方案来回答您的问题:)。

于 2021-04-07T23:10:29.800 回答