1

我有一个这样的统计文件:

dict-count.txt

apple   15
orange  12
mango   10
apple   1
banana  14
mango   4

我需要计算每个元素的数量并创建一个像这样的字典:{'orange': 12, 'mango': 14, 'apple': 16, 'banana': 14}. 我执行以下操作来实现这一目标:

from __future__ import with_statement

with open('dict-count.txt') as f:
    lines = f.readlines()

output = {}

for line in lines:
    key, val = line.split('\t')
    output[key] = output.get(key, 0) + int(val)

print output

我特别关心这部分:

key, val = line.split('\t')
output[key] = output.get(key, 0) + int(val)

有一个更好的方法吗?或者这是唯一的方法?

谢谢。

4

2 回答 2

4

对于一个小文件,您可以使用.readlines(),但这会一次性将文件的全部内容吞入内存。您可以使用文件对象f作为迭代器来编写它;当你迭代它时,你一次得到一行输入。

所以,写这个最简单的方法是使用defaultdict@Amber 已经显示的,但我的版本没有构建输入行列表;它只是构建字典。

我使用了简洁的变量名,比如ddict 而不是output.

from __future__ import with_statement
from collections import defaultdict
from operator import itemgetter

d = defaultdict(int)

with open('dict-count.txt') as f:
    for line in f:
        k, v = line.split()
        d[k] += int(v)

lst = d.items()

# sort twice: once for alphabetical order, then for frequency (descending).
# Because the Python sort is "stable", we will end up with descending
# frequency, but alphabetical order for any frequency values that are equal.
lst.sort(key=itemgetter(0))
lst.sort(key=itemgetter(1), reverse=True)

for key, value in lst:
    print("%10s| %d" % (key, value))
于 2012-04-14T03:15:05.357 回答
3

使用defaultdict

from __future__ import with_statement
from collections import defaultdict

output = defaultdict(int)

with open('dict-count.txt') as f:
    for line in f:
        key, val = line.split('\t')
        output[key] += int(val)

print output
于 2012-04-14T03:06:52.367 回答