1

我有一个包含阿拉伯语内容的 pdf 文档,当我尝试在文档中搜索特定单词时,adobe reader 没有返回任何结果。

似乎是格式问题...我该如何解决?谢谢。

4

2 回答 2

2

至少有四种不同的方法可以将文本放入 PDF 文档(按顺序或可能性):

  1. 使用标准文本运算符和标准字体放置文本
  2. 使用非标准字体的标准文本运算符放置文本
  3. 绘制一幅或多幅代表文本的图像
  4. 通过使用各种 PDF 图形命令手动绘制字形来放置文本

案例 1 通常是可搜索的。如果字体和编码是健全的,则案例 2 是可搜索的 - 如果它们不是(这可能是非拉丁字体的情况),那么可能没有可靠的方法将编码的字形映射回 Unicode(顺便说一句- PDF 是相当 Unicode 敌对的)。如果不了解更多关于 PDF 是如何生成的,则案例 3 是完全无法搜索的。案例 4 完全无法搜索。

也就是说,所有案例都可以使用理解阿拉伯语的 OCR 引擎读取。我知道Iris 引擎会阿拉伯语。

于 2009-12-31T02:20:34.763 回答
1

它可能实际上不是文本,或者它可能位于 Reader 不注意的容器中。当您处理大多数人不会在他们的系统上安装的字体时,将文本对象扩展为矢量形状尤其常见。它在屏幕上看起来相同,但不可搜索。

于 2009-12-31T02:02:26.763 回答