java - Java - PDFBox - 文本提取

Question

我一直在使用 pdfbox 从 PDF 中提取文本信息。我已经成功解析了文本的所有属性，例如 fontname 、 fontface 、 size 、 position 等。

问题：我正在使用 pdfbox1.2.1（最新版本）。TextPosition 类中的 getCharacter() 返回除最后一个字符之外的完整字符串。最后一个字符被解析为一个单独的字符串。

例如：“How are you”被解析为“How are yo”和“u”（2 个单独的字符串）。

我不希望它以这种方式发生..

有没有人遇到过这个？..我做错了什么吗？？..等待回复..

谢谢和问候，玛吉

score 3 · Accepted Answer

这个问题解决了。

以下代码processEncodedText( byte[] string )在PDFStreamEngine.java

if( spacingText == 0 && (i + codeLength) < (string.length - 1) )
{
    continue;
}

应该改为

if( spacingText == 0 && (i + codeLength) < (string.length) )
{
    continue;
}

问候，美极

score 1 · Accepted Answer

是的。pdfbox 解决了这个问题。
尝试最新版本的 pdfbox。最新版本可以从http://pdfbox.apache.org/download.html下载

2 回答 2