0

我尝试使用 Adob​​e Acrobat X Pro 来“识别多个文件中的文本”。

当我开始这个过程并询问目录时,我选择了 C:,我的主硬盘。

加载需要几个小时,当它加载时,它生成的文件列表也包括 word 文档。Adobe 说在我删除问题文件之前我无法继续。

一旦我删除了 Adob​​e 标记为有错误(如密码保护)的所有 pdf,并且提示仍然存在,我认为这意味着列表中的 word 文档。

所以我也手动删除了这些。但是 Adob​​e 仍然表示,在删除问题文件并且列表中没有任何剩余的文件被 adobe 标记为有问题之前,我无法继续。

我的公司正在努力确保我们拥有的所有 pdf 文件都是可搜索的。目前,有些是,有些不是。我们的目标是在不将它们从不同位置删除的情况下使它们都可搜索。

4

1 回答 1

0

我认为你可以使用以下组合来做到这一点

  • 常规java:列出目录中与给定标准匹配的所有文件(例如,它们的名称以'.pdf'结尾)
  • iText :遍历 PDF 文档并提取所有图像
  • Tess4J :用于 Java 的 Tesseract(谷歌 OCR 引擎)的一个端口,用于将提取的图像转换回文本

除非我弄错了,否则 Tesseract 甚至为您提供了此工作流程的粗略版本。但一次只能用于 1 个 pdf。所以你仍然需要一些 windows/linux 脚本来管道输入给定目录的所有文件。

于 2017-09-13T14:41:25.270 回答