0

我想使用 Python 将纯结构化文本文件转换为 CSV 格式。

输入看起来像这样

[-------- 1 -------]
Version: 2
 Stream: 5
 Account: A
[...]
[------- 2 --------]
 Version: 3
 Stream: 6
 Account: B
[...]

输出应该如下所示:

Version; Stream; Account; [...]
2; 5; A; [...]
3; 6; B; [...]

即输入是结构化文本记录,由-pairs 分隔[----<sequence number>----]并包含<key>: <values>-pairs,输出应该是每行包含一条记录的CSV。

我可以通过以下方式将<key>: <values>-pairs 恢复为 CSV 格式

colonseperated = re.compile(' *(.+) *: *(.+) *')
fixedfields = re.compile('(\d{3} \w{7}) +(.*)')

- 但我无法识别结构化文本记录的开头和结尾以及重写为 CSV 行记录。此外,我希望能够区分不同类型的记录,即区分 - 比如说 -Version: 2Version: 3记录类型。

4

1 回答 1

1

阅读列表并不难:

def read_records(iterable):
    record = {}
    for line in iterable:
        if line.startswith('[------'):
            # new record, yield previous
            if record:
                yield record
            record = {}
            continue
        key, value = line.strip().split(':', 1)
        record[key.strip()] = value.strip()

    # file done, yield last record
    if record:
        yield record

这会从您的输入文件中生成字典。

从此,您可以使用csv模块生成 CSV 输出,特别是csv.DictWriter()

# List *all* possible keys, in the order the output file should list them
headers = ('Version', 'Stream', 'Account', ...)

with open(inputfile) as infile, open(outputfile, 'wb') as outfile:
    records = read_records(infile)

    writer = csv.DictWriter(outfile, headers, delimiter=';')
    writer.writeheader()

    # and write
    writer.writerows(records)

记录中缺少的任何标题键都会将该记录的该列留空。您错过的任何额外标题都会引发异常;要么将它们添加到headers元组,要么将构造函数的extrasaction关键字设置为.DictWriter()'ignore'

于 2013-10-17T21:12:45.143 回答