我有一个包含以下文本的 PDF:Localização
当我复制此文本并粘贴时,它给了我:
localizac¸ ~ao
任何帮助表示赞赏
Tks
一些系统喜欢LaTeX
生成组合字符,因为系统的字体在当前编码中不包含(或支持)这样的字形。结果。它们是使用Composed Glyphs 动态生成的。
使两个字形看起来像一个:
A + ´ -> Á
由于这个“技巧”,可选择的 PDF文本信息包含两个分开的字形。但从图形上看,它们都呈现在同一个位置。
快速解决方案:
幸运的是,生成的字符对不会自然地出现在写得很好的段落中(可能是任何语言)。所以使用区分大小写的方法搜索/替换它们是非常安全的。您可以使用您喜欢的文本编辑器手动完成,或者使用 python 脚本等。自动化与否,解决方案的原理是相同的。
了解如何复制文本很重要。如果您只是使用文本编辑器并更改底层 PDF 代码,您将会遇到问题。PDF 文件以非常复杂且非人类可读的方式组织,需要专门的程序才能成功更改。如果要进行此更改,您将需要使用 PDF 编辑器来编辑文档,或从头开始生成新文档。