我使用 PDFPlumber 库来提取我的 PDF 中的所有行,示例行提取如下所示:
总回程运输 $16.01
目标是将所有这些放入数据框中。如何使用正则表达式对这条线进行分组,以便我可以隔离收费类型和美元金额?
目前,我有:
totals=re.compile(r"(\ATotal) ([\w]+) ([\w]*)")
for line in text.split("\n"):
line2=totals.search(line)
if line2:
print(line)
print(line2.group(1))
else:
pass
第 1 组返回“总计”,第 2 组返回“返回”,第 3 组返回“运输”,但我无法创建一个检索美元金额的组。有什么建议么?
注意:超过 1000 美元的金额包含一个“,”,这可能需要包含在正则表达式语法中