1

我正在使用 PdfBox 从 PDF 文件中提取文本。当 PDF 不包含任何嵌入字体时,一切正常。当有一些 TrueType 嵌入字体时会出现此问题。我发现在同样的情况下,嵌入字体会用其他一些形状替换默认字符的形状。例如,“ï”的字符代码用于编码“ł”。我知道如果没有任何映射或 OCR,我无法获得角色的真实形状。我想知道嵌入字符可能会重新定义哪些字符。我的问题是如何知道 PDF 流中的哪些字符是由嵌入字体定义的?

4

0 回答 0