0

我正在尝试解析这些 PDF“军售通知”信函,可在此处找到: http ://www.dsca.mil/pressreleases/36-b/36b_index.htm

下面是一个特定的 PDF 文件示例,是向阿曼出售武器的提议: http ://www.dsca.mil/pressreleases/36-b/2013/Oman13-07.pdf

由于我有600个这样的文件,我想在示例中提取的信息包括国家名称(阿曼)、要出售的物品清单(“AN/AAQ-24(V)大型飞机红外对抗(LAIRCM)系统”、出售成本(“1 亿美元”)和主要承包商(“伊利诺伊州罗林梅多斯的诺斯罗普·格鲁曼公司”)。

我可以使用什么样的正则表达式或 split() 函数规范来将这些信息与这样的文档隔离开来?

4

1 回答 1

0

您需要先阅读转换后的文本以确定正则表达式。PDF 对文本转换可能有些古怪。我会推荐 ReportLabs 而不是 pyPDF 作为首选的 PDF 解析库。

于 2013-05-15T22:35:54.283 回答