我正在尝试解析这些 PDF“军售通知”信函,可在此处找到: http ://www.dsca.mil/pressreleases/36-b/36b_index.htm
下面是一个特定的 PDF 文件示例,是向阿曼出售武器的提议: http ://www.dsca.mil/pressreleases/36-b/2013/Oman13-07.pdf
由于我有600个这样的文件,我想在示例中提取的信息包括国家名称(阿曼)、要出售的物品清单(“AN/AAQ-24(V)大型飞机红外对抗(LAIRCM)系统”、出售成本(“1 亿美元”)和主要承包商(“伊利诺伊州罗林梅多斯的诺斯罗普·格鲁曼公司”)。
我可以使用什么样的正则表达式或 split() 函数规范来将这些信息与这样的文档隔离开来?