pdf - pdf差异数组中的不熟悉格式

Question

我正在尝试解码 pdf 以从中获取文本，但我在使用差异数组时遇到了问题。我从正在使用的文档中提取的差异数组采用以下格式：

'BaseEncoding': 'WinAnsiEncoding', 'Differences': [1, 'g39', 'g38', 'g51', ';#23#23#23', ';#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23#23', 'g40', 'g79', 'g72', 'g70', 'g87', 'g85', 'g82', 'g81', 'g76', 'g54'...]

我找到了有关如何使用其他格式的差异表的解释，例如：

/Differences [ 24 /breve/caron/circumflex/dotaccent/hungarumlaut/ogonek/ring/tilde 39 /quotesingle 96 /grave 128 /bullet/dagger/daggerdbl/ellipsis... ]

数字代码告诉您要使用什么字符，但我似乎找不到如何使用第一种差异表的解释。

编辑：这是文件

score 0 · Accepted Answer

ISO PDF32000-1:2008 规范的第 9.6.6 节字符编码将 /Encoding 字典的差异键描述为：

一个数组，描述与 BaseEncoding 指定的编码的差异，或者如果 BaseEncoding 不存在，则描述与隐式基本编码的差异。差异数组在后续子条款中描述。

在这种情况下，它指定了与 WinAnsiEncoding 的差异。

pdf - pdf差异数组中的不熟悉格式

1 回答 1

Related

Reference