pdf - 我想在我的计算机上识别所有 pdf 的文本并保存它们而不将它们从它们的位置移动。可能吗？

Question

我尝试使用 Adobe Acrobat X Pro 来“识别多个文件中的文本”。

当我开始这个过程并询问目录时，我选择了 C:，我的主硬盘。

加载需要几个小时，当它加载时，它生成的文件列表也包括 word 文档。Adobe 说在我删除问题文件之前我无法继续。

一旦我删除了 Adobe 标记为有错误（如密码保护）的所有 pdf，并且提示仍然存在，我认为这意味着列表中的 word 文档。

所以我也手动删除了这些。但是 Adobe 仍然表示，在删除问题文件并且列表中没有任何剩余的文件被 adobe 标记为有问题之前，我无法继续。

我的公司正在努力确保我们拥有的所有 pdf 文件都是可搜索的。目前，有些是，有些不是。我们的目标是在不将它们从不同位置删除的情况下使它们都可搜索。

score 0 · Accepted Answer

我认为你可以使用以下组合来做到这一点

除非我弄错了，否则 Tesseract 甚至为您提供了此工作流程的粗略版本。但一次只能用于 1 个 pdf。所以你仍然需要一些 windows/linux 脚本来管道输入给定目录的所有文件。

1 回答 1