python - 从 PDF 中搜索文本的脚本

Question

问题

在 Mac OS X 平台上，我想用 Python 或 Tcl 编写一个脚本来搜索 PDF 文件中的文本并提取相关部分。我很感激任何帮助。

背景

我正在编写脚本来查看 PDF 中的内容，以确定它是否是账单、来自哪家公司以及在什么时期。根据这些信息，我重命名 PDF 并将其移动到适当的目录。例如，文件Statement_03948293929384.pdf可能会变成2012-07-15 Water Bill.pdf并移动到我的Utilities文件夹。

到目前为止我做了什么？

我已经搜索了 PDF 到纯文本的工具，但还没有找到任何东西
我查看了 Tcl wiki 并找到了一个示例，但无法使其工作（我搜索了 PDF 中的文本，但没有找到）。
我正在调查pdf-parser.py迪迪埃·史蒂文斯
我听说过一个名为 pyPdf 的 Python 包，接下来会看它。

更新

我找到了一个名为pdftotext的命令行工具，由 Glyph & Cog, LLC 编写；由Carsten Bluem构建和打包。这个工具很简单，它解决了我的问题。我仍在寻找那些可以直接搜索 PDF 而无需转换为文本文件的工具。

score 1 · Accepted Answer

我已成功使用PyODConverter转换为 PDF（还有更强大的 Java 版本）。将 PDF 转换为文本后，进行搜索应该很简单。我也相信iText应该能够做类似的事情，但我还没有测试过。

python - 从 PDF 中搜索文本的脚本

问题

背景

到目前为止我做了什么？

更新

1 回答 1

Related

Reference