0

我的实例CGPDFScanner是扫描一个测试 pdf 文件。

在给定时间,当前字体字典具有EncodingvalueIdentity-HFontDescriptor具有 key 的字典FontFile2。这个键恰好是一个流值,它的字典有键Filter。此键的值为FlateDecode

我不确定如何解释和使用它(例如,将下一个Tj块中的文本提取到 Unicode)。例如,我是否只是对下一个Tj块中的字节进行 zlib 解压缩?(这里没有ToUnicode钥匙。)

我原以为所有的解压都是由CGPDFScanner.

4

1 回答 1

0

如果字体使用 Identity-H 编码并且没有 ToUnicode 条目,则无法提取文本。Tj 运算符的参数是一个字形索引序列,在没有 ToUnicode 条目的情况下,该序列不能转换为文本。

FontFile2 条目存储实际的字体文件,它在从 PDF 文件中提取文本时不起作用。

于 2011-05-18T10:29:59.823 回答