我正在尝试学习 PDF 文件格式。
为此,我下载了 Adobe 的 PDF 规范文件,该文件非常庞大。
因此,为了帮助我研究 PDF 的细节,我想通过并行查看一些真实世界的 PDF 文件来遵循它的抽象解释。
例如,一个想法是创建一个 PDF 文件(使用 LaTeX),它只有一页,内容甚至只有一个字符,a
.
但是当我在十六进制编辑器(或其他可以显示内部 PDF 结构的工具)中打开这个 PDF 文件时,这个 PDF 中有很多二进制或压缩内容。有关我所看到的示例,请查看下面的屏幕截图:
我根本无法确定这个二进制文件的哪一部分代表了我a
在这个 PDF 中的角色。
到目前为止,我尝试过的所有真实世界的 PDF 文件都会发生同样的情况。我根本找不到任何包含工作示例代码的 PDF 文件来帮助我理解通用 PDF 语言规范。
我希望其他人向我解释:有没有一种实用的方法来研究 PDF 规范,同时用真实的 PDF 文件验证它的点点滴滴?
我想知道:PDF 程序员常用哪些软件工具可以帮助像我这样的新手开发人员剖析和解压缩现有的二进制 PDF 文件,以便可以使用简单的文本编辑器研究其源代码?(注意:我不是在寻求建议。根据 SO FAQ,我只想知道这些工具是否存在,以及它们有哪些名称。)
是否有不包含二进制和/或压缩内容的免费 PDF 文件资源?或者我如何创建自己的示例文件?
是否有(最好是免费的)PDF 编辑器/解析器可以可视化 + 剖析 PDF 文件的原始二进制数据并公开它们的结构?
我只需要第一个钩子。如果您愿意的话,是通往真实世界 PDF 文件丛林中狭窄路径的入口点,然后我可以沿着这条路走……同时使用名为“PDF 规范”的丛林探险者的帮助。