0

我有一个具有以下结构的 csv 文件:

A, 10
B, 11
C, 8
D, 12
A, 21
B, 7
D, 22
D, 15
C, 111
D, 50
A, 41
B, 32
C, 19
D, 11

我想读取整个文件,并将数据保存在第二列,如果该行是 A、B、C、D 格式。我有一个清单:

my_list = [A, B, C, D]

我检查每 4 行,如果它是my_list格式,然后读取并保存到数据库,如:

with open('csv_file.csv', 'rb') as csvfile:
        the_file = csv.reader(csvfile.read().splitlines())

        for idx, row in enumerate(islice(zip(*[the_file]*4), 100)):
            my_model = Django_model()
            if row[0][0] == my_list[0]:
                if row[0][0] == my_list[0] and row[1][0] == my_list[1] and \
                    row[2][0] == my_list[2] and row[3][0] == my_list[3]:
                    my_model.a_field = row[0][1]
                    my_model.b_field = row[1][1]
                    my_model.c_field = row[2][1]
                    my_model.d_field = row[3][1]
                    my_model.save()

事实是,当且仅当 的结构rowmy_list. 但是当它到达杂乱的部分(A、B、D、D、C、D)时,它不会正确读取行,因此会跳过很多行。

问题是,我怎样才能跳到下一个有趣的行(遵循my_list格式)并阅读它?同时将跳过的行保存在另一个列表中?

我听说 Pandas 可以提供帮助,但我浏览了文档,但找不到解决此案例的方法。

4

1 回答 1

0

您可以像这样提取模式和相应的值:

import pandas as pd
import re

df = pd.read_csv('/home/yusuf/Desktop/c1', header=None, names=['c1','c2'])
l1=[]
for a in re.finditer('ABCD', ''.join(df.c1.tolist())):
    l1.append(range(a.start(),a.end()))
l2 = [b for a in l1 for b in a]
print df[df.index.isin(l2)], '\n'
print df[~df.index.isin(l2)]

输出:

   c1  c2
0   A  10
1   B  11
2   C   8
3   D  12
10  A  41
11  B  32
12  C  19
13  D  11

  c1   c2
4  A   21
5  B    7
6  D   22
7  D   15
8  C  111
9  D   50
于 2016-12-14T10:39:16.877 回答