0

目标是让 python 脚本过程stdin逐行排序,收集具有相同键的“数据块”,然后在键更改时将该块输出为 JSON(或任何其他单个对象)。在这个阶段,我只想能够通过正确使用groupby和隔离关键和数据块itertools。在下面的示例中,有两个组,每组三行。设置是

 cat data.csv | python qwe.py

data.csv在哪里

 1,this,is
 1,a,test
 1,hope,it
 2,works,well
 2,and,I
 2,move,forward

并且qwe.py

 import itertools
 import operator
 import sys
 import re

 def main(argv):
  for key, bloc in itertools.groupby( sys.stdin.readline().split(',') ,
                                 key=operator.itemgetter(0)):
      print '-----' + key
      print list(bloc)

 if __name__ == "__main__":
  main(sys.argv)

感谢您的任何提示。

4

1 回答 1

1

sys.stdin.readline()只产生第一行1,this,is\n。您应该迭代所有行。

不要手动拆分每一行,而是使用csv模块。

import csv
import itertools
import operator
import sys

def main():
    reader = csv.reader(sys.stdin)
    for key, bloc in itertools.groupby(reader, key=operator.itemgetter(0)):
        print '-----' + key
        print list(bloc)

if __name__ == '__main__':    
    main()
于 2013-06-28T03:09:55.540 回答