我正在尝试使用PDFBox修改 PDF 文档的内容。我按原样使用了这个示例,但观察到我的 PDF 文件中的文本在字符级别(或更糟)被拆分。例如,一个字符串,EM? what it is:
被拆分为:
COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}
cosString
(通过在上述代码中打印检查时)。据我所知,文件中只有拉丁字符,编码也是ISO-8859-1。有任何想法吗?
问候,
萨利尔