我在 csv 中有需要解析的数据。看起来像:

Date, Name, Subject, SId, Mark
2/2/2013, Andy Cole, History, 216351, 98
2/2/2013, Andy Cole, Maths, 216351, 87
2/2/2013, Andy Cole, Science, 217387, 21
2/2/2013, Bryan Carr, Maths, 216757, 89
2/2/2013, Carl Jon, Botany, 218382, 78
2/2/2013, Bryan Carr, Biology, 216757, 27

我需要将 Sid 作为键并使用此键对标记列中的所有值求和。输出将类似于:

Sid     Mark
216351  185
217387   21
216757  116
218382   78

我不必将输出写入文件。当我执行 python 文件时,我只需要它。这是一个类似的问题。应该如何更改以跳过其间的列?


3 回答 3


这就是直方图的概念。使用defaultdict(int)fromcollections并遍历您的行。使用 'Sid' 值作为 dict 的键并将 'Mark' 值添加到当前值。

int 类型的 defaultdict 确保如果键不存在,那么它的值将被初始化为 0。

from collections import defaultdict

d = defaultdict(int)

with open("data.txt") as f:
    for line in f:
        tokens = [t.strip() for t in line.split(",")]
            sid = int(tokens[3])
            mark = int(tokens[4])
        except ValueError:
        d[sid] += mark

print d


defaultdict(<type 'int'>, {217387: 21, 216757: 116, 218382: 78, 216351: 185})

您可以将解析部分更改为其他任何内容(例如使用csvreader或执行其他验证)。这里的关键点是使用 adefaultdict(int)并像这样更新它:

d[sid] += mark
于 2013-07-18T00:14:58.007 回答


这是一个想法(改编自 OP 链接中的 samplebias 解决方案):

import csv
from collections import defaultdict

# a dictionary whose value defaults to a list.
data = defaultdict(list)
# open the csv file and iterate over its rows. the enumerate()
# function gives us an incrementing row number
for i, row in enumerate(csv.reader(open('data.csv', 'rb'))):
    # skip the header line and any empty rows
    # we take advantage of the first row being indexed at 0
    # i=0 which evaluates as false, as does an empty row
    if not i or not row:
    # unpack the columns into local variables

    _, _, _, SID, mark = row#### <--- HERE, change what you unpack

    # for each SID, add the mark the list

# loop over each SID and its list of mark and calculate the sum
for zipcode, mark in data.iteritems():
    print SID, sum(mark)
于 2013-07-18T00:14:42.310 回答

首先,要解析 CSV,请使用以下csv模块:

with open('data.csv', 'rb') as f:
    data = csv.DictReader(f)

现在,您想按 Sid 对它们进行分组。您可以通过排序然后使用groupby. (如果相等的值总是连续的,那么排序是不必要的。)

    siddata = sorted(data, key=operator.itemgetter('SId'))
    sidgroups = itertools.groupby(siddata, operator.itemgetter('SId'))


    for key, group in sidgroups:
        print('{}\t{}'.format(key, sum(int(value['Mark']) for value in group))

或者,您可以将其全部写入数据库,然后让 SQLite 为您找出方法:

with open('data.csv', 'rb') as f, sqlite3.connect(':memory:') as db:
    db.execute('CREATE TABLE data (SId, Mark)')
    db.executemany('INSERT INTO data VALUES (:SId, :Mark)', csv.DictReader(f))
    cursor = db.execute('SELECT SId, SUM(Mark) AS Mark FROM data GROUP BY SId')
    for row in cursor:
于 2013-07-18T00:15:55.103 回答