5

我一直在使用 pdfbox 从 PDF 中提取文本信息。我已经成功解析了文本的所有属性,例如 fontname 、 fontface 、 size 、 position 等。

问题:我正在使用 pdfbox1.2.1(最新版本)。TextPosition 类中的 getCharacter() 返回除最后一个字符之外的完整字符串。最后一个字符被解析为一个单独的字符串。

例如:“How are you”被解析为“How are yo”和“u”(2 个单独的字符串)。

我不希望它以这种方式发生..

有没有人遇到过这个?..我做错了什么吗??..等待回复..

谢谢和问候,玛吉

4

2 回答 2

3

这个问题解决了。

以下代码processEncodedText( byte[] string )PDFStreamEngine.java

if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
    continue;
}

应该改为

if( spacingText == 0 && (i + codeLength) < (string.length) )
{
    continue;
}

问候, 美极

于 2010-08-30T12:09:29.720 回答
1

是的。pdfbox 解决了这个问题。
尝试最新版本的 pdfbox。最新版本可以从http://pdfbox.apache.org/download.html下载

于 2012-06-30T05:17:54.527 回答