5

问题

在 Mac OS X 平台上,我想用 Python 或 Tcl 编写一个脚本来搜索 PDF 文件中的文本并提取相关部分。我很感激任何帮助。

背景

我正在编写脚本来查看 PDF 中的内容,以确定它是否是账单、来自哪家公司以及在什么时期。根据这些信息,我重命名 PDF 并将其移动到适当的目录。例如,文件Statement_03948293929384.pdf可能会变成2012-07-15 Water Bill.pdf并移动到我的Utilities文件夹。

到目前为止我做了什么?

  • 我已经搜索了 PDF 到纯文本的工具,但还没有找到任何东西
  • 我查看了 Tcl wiki 并找到了一个示例,但无法使其工作(我搜索了 PDF 中的文本,但没有找到)。
  • 我正在调查pdf-parser.py迪迪埃·史蒂文斯
  • 我听说过一个名为 pyPdf 的 Python 包,接下来会看它。

更新

我找到了一个名为pdftotext的命令行工具,由 Glyph & Cog, LLC 编写;由Carsten Bluem构建和打包。这个工具很简单,它解决了我的问题。我仍在寻找那些可以直接搜索 PDF 而无需转换为文本文件的工具。

4

1 回答 1

1

我已成功使用PyODConverter转换为 PDF(还有更强大的 Java 版本)。将 PDF 转换为文本后,进行搜索应该很简单。我也相信iText应该能够做类似的事情,但我还没有测试过。

于 2012-07-19T23:19:33.843 回答