我一直在使用 pdfbox 从 PDF 中提取文本信息。我已经成功解析了文本的所有属性,例如 fontname 、 fontface 、 size 、 position 等。
问题:我正在使用 pdfbox1.2.1(最新版本)。TextPosition 类中的 getCharacter() 返回除最后一个字符之外的完整字符串。最后一个字符被解析为一个单独的字符串。
例如:“How are you”被解析为“How are yo”和“u”(2 个单独的字符串)。
我不希望它以这种方式发生..
有没有人遇到过这个?..我做错了什么吗??..等待回复..
谢谢和问候,玛吉