0

我有一个包含以下文本的 PDF:Localização

当我复制此文本并粘贴时,它给了我:

localizac¸ ~ao

任何帮助表示赞赏

Tks

4

2 回答 2

1

对于计算机生成的文档(不是 OCRd/扫描的)

一些系统喜欢LaTeX生成组合字符,因为系统的字体在当前编码中不包含(或支持)这样的字形。结果。它们是使用Composed Glyphs 动态生成的。

使两个字形看起来像一个:

A + ´ -> Á

由于这个“技巧”,可选择的 PDF文本信息包含两个分开的字形。但从图形上看,它们都呈现在同一个位置。


快速解决方案:

幸运的是,生成的字符对不会自然地出现在写得很好的段落中(可能是任何语言)。所以使用区分大小写的方法搜索/替换它们是非常安全的。您可以使用您喜欢的文本编辑器手动完成,或者使用 python 脚本等。自动化与否,解决方案的原理是相同的。

于 2013-07-18T04:25:12.770 回答
0

了解如何复制文本很重要。如果您只是使用文本编辑器并更改底层 PDF 代码,您将会遇到问题。PDF 文件以非常复杂且非人类可读的方式组织,需要专门的程序才能成功更改。如果要进行此更改,您将需要使用 PDF 编辑器编辑文档,或从头开始生成新文档。

于 2013-07-18T03:40:02.593 回答