java - 使用 Apache PDFBox 解析 PDF 文件

Question

我正在尝试使用PDFBox修改 PDF 文档的内容。我按原样使用了这个示例，但观察到我的 PDF 文件中的文本在字符级别（或更糟）被拆分。例如，一个字符串，EM? what it is:被拆分为：

COSString{E}
COSString{M?}
COSString{ }
COSString{w}
COSString{hat }
COSString{it }
COSString{is}
COSString{:}

cosString（通过在上述代码中打印检查时）。据我所知，文件中只有拉丁字符，编码也是ISO-8859-1。有任何想法吗？

问候，

萨利尔

score 1 · Accepted Answer

这很可能是 PDF 格式问题。这就是您的特定 PDF 如何存储文本以获得正确的字母间距或字距调整。这从 PDF 到 PDF 差异很大，具体取决于它们的创建方式。

通常，我会建议简单地将所有不同的标记合并到一个大的内容字符串中。

1 回答 1