我有一个包含阿拉伯语内容的 pdf 文档,当我尝试在文档中搜索特定单词时,adobe reader 没有返回任何结果。
似乎是格式问题...我该如何解决?谢谢。
至少有四种不同的方法可以将文本放入 PDF 文档(按顺序或可能性):
案例 1 通常是可搜索的。如果字体和编码是健全的,则案例 2 是可搜索的 - 如果它们不是(这可能是非拉丁字体的情况),那么可能没有可靠的方法将编码的字形映射回 Unicode(顺便说一句- PDF 是相当 Unicode 敌对的)。如果不了解更多关于 PDF 是如何生成的,则案例 3 是完全无法搜索的。案例 4 完全无法搜索。
也就是说,所有案例都可以使用理解阿拉伯语的 OCR 引擎读取。我知道Iris 引擎会阿拉伯语。
它可能实际上不是文本,或者它可能位于 Reader 不注意的容器中。当您处理大多数人不会在他们的系统上安装的字体时,将文本对象扩展为矢量形状尤其常见。它在屏幕上看起来相同,但不可搜索。