我正在使用 Apache PDFBox 和 Java 来解析 PDF 并从中获取所有信息。提取文本仅适用于英语。对于其他语言,我只得到一些特殊字符。例如,提取阿拉伯字符 ش 将在打印时给出字符串 :"?问题。请帮助我从 PDF 中获取字符的 Unicode 或建议我一些解决方案来解决这个问题。
问问题
3208 次
2 回答
2
尝试更改 Java 系统语言环境。在您的 Java 程序中,这应该等同于更改操作系统设置。
于 2012-09-26T18:05:18.603 回答
1
私有字符串转义(字符串字符)将字符转换为 unicode。
于 2012-10-10T05:20:27.847 回答