1

我想用python解析PDF文件。我已经看到 PDFMiner 的示例无法解释我的要求。

例如,如果我想解析一份简历,它包含各种字段,如摘要、经验和爱好。

我有兴趣只提取经验,这个经验字段将在第一位或第二位或任何地方,我需要确定经验字段的位置并需要提取数据。

我怎样才能做到这一点?

4

1 回答 1

1

有两种可行的方法来提取该字段数据:

  1. 搜索一些预定义的关键字,比如Experience获取它的位置。然后搜索下一节的关键字 ( Hobbies),然后确定这两个节之间的文本分区的坐标,并从该位置提取此文本。

  2. 如果 PDF 是使用相同的生成器生成的,那么您可能只会找到Experience部分的坐标,并且每次都从同一位置提取文本。

  3. (最简单)只需将整个页面转换为文本,然后使用子字符串搜索或正则表达式解析生成的文本。这将是最简单和最简单的方法,因为有关 PDF 格式的所有工作都依赖于专门的工具

于 2016-06-07T13:31:32.037 回答