我最近正在处理 IRS 税务文件数据。它是空格分隔的 txt 数据,如下所示(完整数据在此处):
数据的存储方式存在一些模式。但对我来说,数据没有以标准方式格式化,并且不容易读入 Pandas。我想知道如何从上面的 txt 数据中获取如下数据框:
+------------+-------------+--------------------------+-----+-----+-----+------+
| fips_state | fips_county | name | c1 | c2 | c3 | c4 |
+------------+-------------+--------------------------+-----+-----+-----+------+
| 02 | 013 | Aleutians East Borough T | 145 | 280 | 416 | 1002 |
| 02 | 016 | Aleutians West Total Mig | 304 | 535 | 991 | 2185 |
| ... | ... | ... | ... | ... | ... | ... |
+------------+-------------+--------------------------+-----+-----+-----+------+