0

像这样的文件:

fieldname_A: eggs
fieldname_B: bacon 
~EOR~
..
..
~EOR~
fieldname_A: eggs
fieldname_C: spam
fieldname_Z: baked beans
~EOR~

总共有 40 个不同的字段名称,大约 10,000 条记录(EOR 是 End Of Record),其中包含一组可变的字段。大多数字段内容很短,有些很长(超过 1000 个字符)。

我正在寻找一种漂亮、干净、pythonic 的方式来将其转换为 CSV,或者更确切地说,转换为 Google 电子表格。(需要检查和更正数据。有几个人会这样做。谷歌文档是我所知道的唯一一种让他们在不导致版本冲突或同步问题的情况下处理相同数据的快速方法。)

Dictwriter 似乎是一种繁琐的方式,因为许多记录(即电子表格中的行)中的字段为空。

输入文件的格式更像 XML,所以我想将其转换为 XML,将其导入 Excel,然后将其作为 Google 电子表格上传。

有任何想法吗?

4

1 回答 1

1

用这个...

infile = "d.txt"
data = open(infile, "r").readlines()

dataDict = []
columns = []

rowData = {}
# Create a dictionary list
for line in data:
    if not line.strip():
        continue
    if "~EOR~" in line:
        keys = rowData.keys()
        dataDict.append(rowData)
        columns = list(set(columns) | set(keys))
        rowData = {}
    else:  
        cell = line.split(":", 1);
        print cell
        rowData[cell[0].strip().strip('"').strip("'")] = cell[1].strip().strip('"').strip("'")


# Write dictionary list to file
outfile = "d.csv"

with open(outfile, "w") as fp:

    columns.sort()

    for key in columns:
        fp.write(key + ", ")

    fp.write("\n")

    for data in dataDict:
        for key in columns:
            if key in data:
                fp.write(data[key] + ",")
            else:
                fp.write(",")
        fp.write("\n")

输入:

fieldname_A: eggs
fieldname_B: bacon 
~EOR~
fieldname_A: eggs
fieldname_C: spam
fieldname_Z: baked beans
~EOR~

输出:

fieldname_A, fieldname_B, fieldname_C, fieldname_Z, 
eggs,bacon,,,
eggs,,spam,baked beans,
于 2013-01-21T16:01:19.607 回答