python - Python - 解析 PDF 文档中特定标准化信息的最佳方式？

Question

我正在尝试解析这些 PDF“军售通知”信函，可在此处找到： http ://www.dsca.mil/pressreleases/36-b/36b_index.htm

下面是一个特定的 PDF 文件示例，是向阿曼出售武器的提议： http ://www.dsca.mil/pressreleases/36-b/2013/Oman13-07.pdf

由于我有600个这样的文件，我想在示例中提取的信息包括国家名称（阿曼）、要出售的物品清单（“AN/AAQ-24（V）大型飞机红外对抗（LAIRCM）系统”、出售成本（“1 亿美元”）和主要承包商（“伊利诺伊州罗林梅多斯的诺斯罗普·格鲁曼公司”）。

我可以使用什么样的正则表达式或 split() 函数规范来将这些信息与这样的文档隔离开来？

score 0 · Accepted Answer

您需要先阅读转换后的文本以确定正则表达式。PDF 对文本转换可能有些古怪。我会推荐 ReportLabs 而不是 pyPDF 作为首选的 PDF 解析库。

1 回答 1