我有一些数据(文本文件)以人们能想到的最不均匀的方式格式化。我试图尽量减少解析这些数据的手动工作量。
样本数据 :
Name Degree CLASS CODE EDU Scores
--------------------------------------------------------------------------------------
John Marshall CSC 78659944 89989 BE 900
Think Code DB I10 MSC 87782 1231 MS 878
Mary 200 Jones CIVIL 98993483 32985 BE 898
John G. S Mech 7653 54 MS 65
Silent Ghost Python Ninja 788505 88448 MS Comp 887
条件 :
- 应该将多个空格压缩为分隔符(管道更好?最终目标是将这些文件存储在数据库中)。
- 除了第一列之外,其他列中不会有任何空格,因此所有这些空格都可以压缩为管道。
- 只有第一列可以有多个带空格的单词 (Mary K Jones)。其余的列主要是数字和一些字母。
- 第一列和第二列都是字符串。它们之间几乎总是有多个空格,因此我们可以区分两列。(如果有一个空格,考虑到可怕的格式,这是我愿意承担的风险!)。
- 列数各不相同,因此我们不必担心列名。我们想要的只是提取每一列的数据。
希望我说得通!我有一种感觉,这个任务可以在一个单行机中完成。我不想循环,循环,循环:(
Muchos gracias “Pythonistas” 一路阅读,在这句话之前没有退出!