所以我有大量的 PDF 文件需要从中提取文本。这些文件是加密的,但我知道它们的密码。我正在寻找一种方法来自动化提取文本的过程。
我可以在 Acrobat Professional 中手动打开文件,通过输入密码删除安全性,然后另存为 .txt 文件。但是没有办法通过批处理 600 个文件来自动化它。
我正在寻找一些工具来帮助解决这个问题。我很擅长 Perl,所以我尝试了 CPAN 的各种 PDF 处理模块,但它们无法读取加密的文档。有人对此有任何解决方案吗?
moo
问问题
2798 次
7 回答
4
看看pdftk。它基于控制台并处理受密码保护的 PDF 文件。
于 2008-10-24T14:24:15.067 回答
3
pdftotext 应该能够做到这一点。它带有 poppler 库,也可以在 xpdf 中找到(poppler 来自 xpdf)。
于 2008-10-24T10:26:53.780 回答
1
尝试pdftk:
pdftk secure.pdf input_pw foopass 输出 unsecured.pdf
于 2008-10-27T14:21:40.803 回答
1
您可以尝试使用PDF Password Cracking实用程序的特殊功能
它被称为“解密”选项 - 您可以填写密码,然后制作一份不受保护的 PDF 文件副本
于 2012-08-13T07:31:04.827 回答
0
CAM::PDF是一个开源 Perl 库,可以加密和解密 PDF。目前它只能在所有者和用户密码相同的情况下进行 40 位加密,但就在今天(巧合)一个用户提交了一个补丁,允许 128 位加密和解密。我希望在下周发布一个具有该增强功能的新版本。
不过,CAM::PDF 不太擅长提取文本。
于 2008-10-25T03:17:58.500 回答
-1
如果您找不到任何体面的纯程序化方式来做这件事,另一种选择是AutoIt。
它是“一种为自动化 Windows GUI 而设计的类似 BASIC 的免费软件脚本语言”,它可以在您去喝咖啡时为您完成所有的指向和点击操作。
于 2008-10-24T10:22:29.500 回答