python - 在python中从具有特定标题的PDF中提取数据

Question

我想用python解析PDF文件。我已经看到 PDFMiner 的示例无法解释我的要求。

例如，如果我想解析一份简历，它包含各种字段，如摘要、经验和爱好。

我有兴趣只提取经验，这个经验字段将在第一位或第二位或任何地方，我需要确定经验字段的位置并需要提取数据。

我怎样才能做到这一点？

score 1 · Accepted Answer

有两种可行的方法来提取该字段数据：

搜索一些预定义的关键字，比如Experience获取它的位置。然后搜索下一节的关键字 ( Hobbies)，然后确定这两个节之间的文本分区的坐标，并从该位置提取此文本。
如果 PDF 是使用相同的生成器生成的，那么您可能只会找到Experience部分的坐标，并且每次都从同一位置提取文本。
（最简单）只需将整个页面转换为文本，然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单和最简单的方法，因为有关 PDF 格式的所有工作都依赖于专门的工具

1 回答 1