java - 如何使用 java 和 PDFBox 从 PDF 中获取字符的 Unicode

Question

我正在使用 Apache PDFBox 和 Java 来解析 PDF 并从中获取所有信息。提取文本仅适用于英语。对于其他语言，我只得到一些特殊字符。例如，提取阿拉伯字符 ش 将在打印时给出字符串 :"?问题。请帮助我从 PDF 中获取字符的 Unicode 或建议我一些解决方案来解决这个问题。

score 2 · Accepted Answer

尝试更改 Java 系统语言环境。在您的 Java 程序中，这应该等同于更改操作系统设置。

score 1 · Accepted Answer

私有字符串转义（字符串字符）将字符转换为 unicode。

2 回答 2