我正在使用PDFBox等工具来解释 PDF 文件(包括文本、笔划、字形和图像),并且可以访问流和字典。我不清楚这些组件如何链接在一起以及如何解释它们。特别是我想知道如何从流中访问字体。
注意:我对如何创建 PDF 文档的教程不感兴趣
Planetpdf.com 上有很多好文章,许多 PDF 开发人员在博客上运行有用的通用文章。我们已经在我们的博客上运行了一个完整的负载 (http://www.jpedal.org/PDFblog/)
您可能应该从阅读PDF Reference开始。这是一个巨大的文件,但您可能只阅读相关部分。
要了解字体流,您基本上需要阅读有关TrueType和Type1字体格式的信息(这也不是一个容易阅读的内容)。PDF 可能包含其他字体类型,但 TrueType 和 Type1 可能使用最广泛。
摆弄字体可能很复杂,因此您可能会发现使用某些字体库作为FreeType从 PDF 字体流中提取信息更容易。