pdf - 如何检查 pdf 的编码和 ToUnicode 是否正确完成？

Question

我正在使用qpdf使用以下命令检查编码和 toUnicode 是否为 pdf 正确设置（编码），并在文本文件中查找“ToUnicode”字。目的是确保文件中的连字可以在 pdf 查看器上正确解码，例如 Adobe Acrobat Reader、pdf.js、pdfium 等。

我想知道这是否是正确的方法？有什么推荐的？

qpdf --stream-data=uncompress input.pdf output.txt

谢谢你。

score 0 · Accepted Answer

这是一项相当艰巨的任务。

您的文档可以包含多种字体，有些带有 ToUnicode cmap，有些没有，它们都可以是有效的。

然后对于包含 ToUnicode cmap 的字体，您必须检查与该字体一起使用的所有字符 ID 是否也存在于 ToUnicode cmap 中。

最后一步是检查每个字符 id 是否映射到正确的字符（用于连字的字符）。这是不可能自动完成的，因为您不知道某个 id 代表什么字符。例如，当页面上显示文本时，字形“A”由字符 id 1 表示。但在 ToUnicode cmap 中，字符 id 1 映射到字符“B”。这是一个无法自动验证的逻辑错误。

1 回答 1