1

我是一名统计学家,对 Python 有点陌生。我有一个看起来像这样的文本文档:

逮捕# 1逮捕
日期
2011年 1 月8



逮捕 # 2
逮捕日期
01/13/2011

指控
异常
侵入

逮捕#3....

我想将其转换为以下形式:

逮捕性指控
1 男性袭击
2 失踪越轨
3...

我可以使用正则表达式提取 Arrest Date 和 Sex 之间的文本,但我无法弄清楚如何为每次逮捕执行这些操作。这是我经常遇到的一个问题,因为警察部门倾向于交出 PDF(然后我将其转换为上述格式的 tex 文件),而不是电子表格,因此非常感谢任何帮助。


4

1 回答 1

0

1) 使用 regex.findall 或 split() 命令将原始数据分解成一个列表。

2) 遍历您的列表并取出重要信息,将其放入字典中,并将其附加到列表中。(您想要一个字典列表列表,[{"Arrest": 1, "date": 01/08/2011, "sex": "male", "charge":"assault"}, {}, {} ...]

3)打开一个txt文件和writerows,big_list[0]{'arrest'},big_list[0]{'date'}等

于 2013-10-09T15:56:16.600 回答