2

我正在做一个从 pdf 文档中提取指定文本的项目。我没有这种提取的经验。一个问题是我们不只是想要转储文档中的所有文本。相反,有没有办法只提取 pdf 中的某些字段?是否有可用于此类事情的 pdf 模板的概念?

我正在尝试使用 Apple 的 Automator - 这可以获取所有文本,但不能获取指定文本。理想情况下,我希望 Pages 中的某个人拥有例如 30 行谨慎的文本,其中 20 行被指定为“目录项”,并且我们的 Automator 脚本只占用这 20 行。

关于最佳工作流程/提取工具的任何想法?我宁愿只使用消费者级别的项目,例如 Apple Pages、Automator,以及 ruby​​ 或 python 作为脚本语言。

谢谢

编辑#1 看起来像标记的pdf可能是一种方法 - 不确定Apple Pages对此的支持程度如何

4

3 回答 3

1

使用 python,最好的选择可能是PDFMiner。它可以提取每个文本字符串的坐标,因此您可以自己计算表单中的矩形并挑选出其中的内容。这都是相当低级的,但不幸的是 PDF 是一种相当低级的格式。

请注意,除非您已经对 PDF 的结构有很多了解,否则您会发现 API 和文档很少。寻找使用示例,包括这里的 SO。

于 2012-03-25T20:16:45.357 回答
0

您可以在Ruby中使用Origami,这是一个旨在解析、分析和伪造 PDF 文档的框架,或Python等价物:Origapy,一个用于基于 Ruby 的 Origami 的简单 Python 接口。

于 2012-03-25T16:36:12.017 回答
0

对于 Ruby,您可以尝试使用pdf-reader来解析 PDF 并访问元数据和内容。提取您感兴趣的特定项目是另一回事,但如何去做这在很大程度上取决于您期望的数据格式。

于 2012-03-25T16:44:49.107 回答