问题
在 Mac OS X 平台上,我想用 Python 或 Tcl 编写一个脚本来搜索 PDF 文件中的文本并提取相关部分。我很感激任何帮助。
背景
我正在编写脚本来查看 PDF 中的内容,以确定它是否是账单、来自哪家公司以及在什么时期。根据这些信息,我重命名 PDF 并将其移动到适当的目录。例如,文件Statement_03948293929384.pdf
可能会变成2012-07-15 Water Bill.pdf
并移动到我的Utilities
文件夹。
到目前为止我做了什么?
- 我已经搜索了 PDF 到纯文本的工具,但还没有找到任何东西
- 我查看了 Tcl wiki 并找到了一个示例,但无法使其工作(我搜索了 PDF 中的文本,但没有找到)。
- 我正在调查
pdf-parser.py
迪迪埃·史蒂文斯 - 我听说过一个名为 pyPdf 的 Python 包,接下来会看它。
更新
我找到了一个名为pdftotext的命令行工具,由 Glyph & Cog, LLC 编写;由Carsten Bluem构建和打包。这个工具很简单,它解决了我的问题。我仍在寻找那些可以直接搜索 PDF 而无需转换为文本文件的工具。