我是一名统计学家,对 Python 有点陌生。我有一个看起来像这样的文本文档:
逮捕# 1逮捕
日期
2011年 1 月8
日
逮捕 # 2
逮捕日期
01/13/2011
性
指控
异常
侵入
逮捕#3....
我想将其转换为以下形式:
逮捕性指控
1 男性袭击
2 失踪越轨
3...
我可以使用正则表达式提取 Arrest Date 和 Sex 之间的文本,但我无法弄清楚如何为每次逮捕执行这些操作。这是我经常遇到的一个问题,因为警察部门倾向于交出 PDF(然后我将其转换为上述格式的 tex 文件),而不是电子表格,因此非常感谢任何帮助。