我正在使用qpdf使用以下命令检查编码和 toUnicode 是否为 pdf 正确设置(编码),并在文本文件中查找“ToUnicode”字。目的是确保文件中的连字可以在 pdf 查看器上正确解码,例如 Adobe Acrobat Reader、pdf.js、pdfium 等。
我想知道这是否是正确的方法?有什么推荐的?
qpdf --stream-data=uncompress input.pdf output.txt
谢谢你。
我正在使用qpdf使用以下命令检查编码和 toUnicode 是否为 pdf 正确设置(编码),并在文本文件中查找“ToUnicode”字。目的是确保文件中的连字可以在 pdf 查看器上正确解码,例如 Adobe Acrobat Reader、pdf.js、pdfium 等。
我想知道这是否是正确的方法?有什么推荐的?
qpdf --stream-data=uncompress input.pdf output.txt
谢谢你。
这是一项相当艰巨的任务。
您的文档可以包含多种字体,有些带有 ToUnicode cmap,有些没有,它们都可以是有效的。
然后对于包含 ToUnicode cmap 的字体,您必须检查与该字体一起使用的所有字符 ID 是否也存在于 ToUnicode cmap 中。
最后一步是检查每个字符 id 是否映射到正确的字符(用于连字的字符)。这是不可能自动完成的,因为您不知道某个 id 代表什么字符。例如,当页面上显示文本时,字形“A”由字符 id 1 表示。但在 ToUnicode cmap 中,字符 id 1 映射到字符“B”。这是一个无法自动验证的逻辑错误。