我收到了一个使用不寻常字体的 PDF 文件。
字体在人眼中看起来不错,
但如果我尝试cut-past
他们,我会得到一串'???'
这可能是可能的,例如使用Enfocus的 PitStop Pro 。但是,正如评论中的其他人所指出的那样,pdf 中的字体和 pdf 本身可能已经拥有所有信息,可以将其删除。
关于这个的更多细节可能是:
PDF 中的编码可以告诉软件要显示哪个字符,然后从字体中选择该字符进行显示,但也可以创建一个 pdf,因此它只显示“显示嵌入的字形编号 3”字体”。这就是您在摘要中看到的“Identity-H”编码的作用。
请注意,字形而不是“字符”一词在谈论构成字体的各个“图形”时专门使用,以表明这些东西只是“随机”图形,直到在字体中添加一些信息以指示哪个字母(或其他字符,如数字)它们代表。
例如,对于字符“lower-case-a”,您当前查看的字体具有以下字形:
一个
但其他字体可能看起来完全不同。只是因为我们已经学会将这些不同的图像读取为小写字母-a,我们才会认为它们是/代表“相同的字母”。
如果 PDF 中不存在此信息(如您的情况),则仍然有可能从 pdf 中包含的字体中获取此信息:您计算机上的字体需要某种方式来允许程序选择正确的字形如果它想显示“小写-a”。但是,如果 pdf 设置为简单地说“显示嵌入字体的第 3 个字形”,则不再需要此信息,并且可以在将字体放入 pdf 之前从字体中删除。这样做是为了使 pdf 更小,或防止人们复制文本,例如受版权保护的作品。
在这种情况下,只有 OCR 可以提供帮助。我认为 Adobe Acrobat(完整版,而不是 Adobe Reader)已经在最新版本之一中添加了这一点;然而这意味着它试图从显示的“图像”中猜测字母,所以这可能会出错。