0

我需要组织数千个名称和组织不当的 PDF 文件。它们位于一个主文件夹中,但它们存储在各种子文件夹中,我无法更改该文件夹结构。

我的目标是提取所有 PDF 的文本并将其附加到一个大文本文件中,这对于以后的索引很有用。在我的文本文件中,我想在文本文件夹中获取 PDF 文件路径和每一页的末尾@@@@ End of page # 1 @@@@

文本文档将开始:

@@@@ PDF Filepath : $thefilepath @@@@
.... text ....
.... text ....
.... text ....
@@@@ End of page # 1 @@@@
.... text ....
.... text ....
@@@@ End of page # 2 @@@@
@@@ PDF Filepath : $thenextfilepath @@@@
.... text ....
....
....

有人可以帮我解决这个问题吗?

4

1 回答 1

1

最明显的方法是简单地遍历文件,使用readdir内置函数来获取子文件夹和文件的名称。对于每个文件,您使用一些 Perl 模块或命令行实用程序(例如CAM::PDFText::FromAnypdftotext)提取文本,并将其与 PDF 文件路径和页面信息一起附加到输出文本文件中。

于 2012-05-18T20:42:29.423 回答