我有一组选项卡类型的数据来清理我的研究。每个数据集不是典型的整齐的逐列格式,而是每个县的选项卡格式(如下所示)
1CURRENT DATE: XXX AGE,SEX, RACE AND ETHNICITY OF PERSONS PAGE 1
BEGINNING DATE FOR DATA TOTALS: 01/83 COUNTY 001
ENDING DATE FOR DATA TOTALS: 12/83 RECORD COUNT 36
Gender Age_20 Age_21 Age_22 Age_23 Asian Hispanic White
Robbery F 1 2 2 2 3 3 3
M 3 3 2 2 4 3 3
Fraud F 1 2 2 2 3 3 2
M 2 3 2 2 4 3 3
Arson F 1 2 2 2 3 3 3
M 4 3 2 2 4 3 4
1CURRENT DATE: XXX AGE,SEX, RACE AND ETHNICITY OF PERSONS PAGE 4
BEGINNING DATE FOR DATA TOTALS: 01/83 COUNTY 002
ENDING DATE FOR DATA TOTALS: 12/83 RECORD COUNT 36
Gender Age_20 Age_21 Age_22 Age_23 Asian Hispanic White
Robbery F 1 2 2 2 3 3 3
M 2 3 2 2 4 4 3
Fraud F 1 2 2 2 3 3 2
M 2 3 2 2 4 6 3
Arson F 1 2 2 2 3 3 3
M 4 3 2 2 4 3 4
1CURRENT DATE: XXX AGE,SEX, RACE AND ETHNICITY OF PERSONS PAGE 7
BEGINNING DATE FOR DATA TOTALS: 01/83 COUNTY 003
ENDING DATE FOR DATA TOTALS: 12/83 RECORD COUNT 36
Gender Age_20 Age_21 Age_22 Age_23 Asian Hispanic White
Robbery F 1 2 2 2 3 3 3
M 3 3 2 2 4 3 3
Fraud F 1 2 1 4 3 3 2
M 2 3 2 2 4 3 3
Arson F 1 2 4 2 3 3 3
M 4 3 2 2 4 3 4
由于其标签类型的性质,我无法将这些数据集直接导入 excel 或 stata 以进行进一步分析。我计划做的是复制并粘贴每个县的 ID(即:COUNTY 003、COUNTY 002 等)和特定类型的犯罪,以创建一个新的类似列的数据集,如下所示:
Gender Age_20 Age_21 Age_22 Age_23 Asian Hispanic White County
Robbery F 1 2 2 2 3 2 3 001
Robbery F 1 2 2 2 2 3 3 002
Robbery F 1 2 2 2 3 3 3 003
并进一步清理这个新数据集中的数据。
我在网上搜索,发现Python实际上可以将文件的特定部分复制并粘贴到新文档中。但我对 Python 真的很陌生,我的经验主要是在 Stata 和 SPSS 方面。我不确切知道哪些代码将执行这种类型的复制和粘贴工作。