python - 从特殊格式的文本文件中读取数据

Question

我正在使用 Ashwini Chaudhary 建议的这种方法，将数据从特定格式的文本文件中分配给字典。

keys = map(str.strip, next(f).split('Key\t')[1].split('\t'))
words = map(str.strip, next(f).split('Word\t')[1].split('\t'))

文本文件的行标题后跟值，用\t字符分隔。

示例 1：

Key      a 1  b 2  c 3  d 4
Word     as   box  cow  dig

我将如何更改我的代码不读取文件中的所有行，而只读取特定行？我不想阅读的额外行应该被忽略：

示例 2 - 忽略LineHere和OrHere行：

LineHere  w    x    y    z
Key       a 1  b 2  c 3  d 4
OrHere    00   01   10   11
Word      as   box  cow  dig

或者，如果我想有可能读取标题为“Word”XOR“Letter”的行，无论哪个恰好在文件中。因此，扫描示例 1 或 2 的代码也适用于：

示例 3 - 我想阅读Key和Letter行：

LineHere  w    x    y    z
Key       a 1  b 2  c 3  d 4
OrHere    00   01   10   11
Letter    A    B    C    D

请随时对问题批评发表评论，我很乐意重新措辞/澄清问题。

作为参考，前身问题在此处链接

非常感谢，

亚历克斯

score 1 · Accepted Answer

像这样的东西：

import re
with open('abc') as f:
    for line in f:
        if line.startswith('Key'):
            keys = re.search(r'Key\s+(.*)',line).group(1).split("\t")
        elif line.startswith(('Word','Letter')):
            vals = re.search(r'(Word|Letter)\s+(.*)',line).group(2).split("\t")

    print dict(zip(keys,vals))

ABC：

LineHere  w    x    y    z
Key       a 1  b 2  c 3  d 4
OrHere    00   01   10   11
Word      as   box  cow  dig

输出是：

{'d 4': 'dig', 'b 2': 'box', 'a 1': 'as', 'c 3': 'cow'}

ABC：

LineHere  w    x    y    z
Key       a 1  b 2  c 3  d 4
OrHere    00   01   10   11
Letter    A    B    C    D

输出是：

{'d 4': 'D', 'b 2': 'B', 'a 1': 'A', 'c 3': 'C'}

score 0 · Accepted Answer

ss = '''LineHere  w    x    y    z
Key       a 1  b 2  c 3  d 4
OrHere    00   01   10   11
Word      as   box  cow  dig
'''
import re

rgx = re.compile('Key +(.*)\r?\n'
                 '(?:.*\r?\n)?'
                 '(?:Word|Letter) +(.*)\r?\n')

mat = rgx.search(ss)
keys = mat.group(1).split(' ')
words = mat.group(2).split('\t')

您将通过阅读文件获得ss ：

with open (filename) as f:
    ss = f.read()

编辑

好吧，如果所有行都有用制表符分隔的数据，你可以这样做：

ss = '''LineHere  w\tx\ty\tz
Key       a 1\tb 2\tc 3\td 4
OrHere    00\t01\t10\t11
Word      as\tbox\tcow\tdig
'''
import re

rgx = re.compile('Key +(.*)\r?\n'
                 '(?:.*\r?\n)?'
                 '(?:Word|Letter) +(.*)\r?\n')

print  dict(zip(*map(lambda x: x.split('\t'),
                     rgx.search(ss).groups())))

python - 从特殊格式的文本文件中读取数据

2 回答 2

编辑

Related

Reference