perl - 如何从包含在子文件夹中的多个 PDF 文件中提取文本？

Question

我需要组织数千个名称和组织不当的 PDF 文件。它们位于一个主文件夹中，但它们存储在各种子文件夹中，我无法更改该文件夹结构。

我的目标是提取所有 PDF 的文本并将其附加到一个大文本文件中，这对于以后的索引很有用。在我的文本文件中，我想在文本文件夹中获取 PDF 文件路径和每一页的末尾@@@@ End of page # 1 @@@@。

文本文档将开始：

@@@@ PDF Filepath : $thefilepath @@@@
.... text ....
.... text ....
.... text ....
@@@@ End of page # 1 @@@@
.... text ....
.... text ....
@@@@ End of page # 2 @@@@
@@@ PDF Filepath : $thenextfilepath @@@@
.... text ....
....
....

有人可以帮我解决这个问题吗？

score 1 · Accepted Answer

最明显的方法是简单地遍历文件，使用readdir内置函数来获取子文件夹和文件的名称。对于每个文件，您使用一些 Perl 模块或命令行实用程序（例如CAM::PDF、Text::FromAny或pdftotext）提取文本，并将其与 PDF 文件路径和页面信息一起附加到输出文本文件中。

perl - 如何从包含在子文件夹中的多个 PDF 文件中提取文本？

1 回答 1

Related

Reference