pdf - 提取PDF中的字体及其对应的cmap

翻译自：https://stackoverflow.com/questions/13548147 2012-11-25T04:04:32.890

1648 次

1

我尝试了几种从pdf即提取字体的方法。C# 中的 fontforge、mupdf、pdfparser 以及一些 pythone 脚本。但我只是对获得精确的字体对及其嵌入 pdf 的 cmap 感到困惑。请指导我正确的方法，通过它我将获得精确的字体对及其 cmap。

1 回答 1

1

正如我在第一条评论中提到的，使用iText 或 iTextSharp或任何其他允许您访问低级 PDF 对象的此类库应该很容易。

如果是 iText(Sharp)，ListUsedFonts.java和ListUsedFonts.cs可以为您提供起点；他们检查通过至少一页可访问的 PDF 文件中的所有字体字典。而不是这些示例的简单输出，只需导出您需要的所有信息。为此，ISO 32000-1:2008应该是您的参考指南。

于 2012-11-26T13:59:06.963 回答