4

我想知道你们是否对如何有效地执行此操作有任何意见,我目前有一个使用 Python 的集合类的工作实现。

4

2 回答 2

2

这取决于您有多少可用内存(当然还有文件的大小)。

如果您有足够的可用内存,我个人会采取简单的方法并创建所有项目的列表并sort()对其进行操作。

像这样的东西:

# Read all except the first (header) lines
lines = file('1.txt').readlines()[1:]
lines += file('2.txt').readlines()[1:]

lines.sort(key=lambda x: int(x.split()[0]))

print ''.join(lines)

lambda 的替代方案:

def key(x):
    return int(x.split()[0])
于 2012-05-26T14:33:28.370 回答
1
>>> from itertools import islice
>>> from operator import itemgetter
>>> files = ('1.txt','2.txt')
>>> lines = (map(int,line.split()) for f in files
             for line in islice(open(f),1,None))
>>> sorted(lines,key=itemgetter(0))
[[1, 23112, 3], [2, 32344, 1], [12, 19872, 0], [123, 12243, 1], [221, 39873, 5], [234, 34555, -4]]
于 2012-05-26T14:42:44.717 回答