以下是 1 个 python 脚本的输出:
{ 12: {'@': False, '#': False, 'word': 'good#1st#time#will', 'longword': True, 'title': False, 'charcount': 18, 'uppercase': False, 'stop': False, 'sscore': False, 'url': False, '!!!': False} }
{ 12: {'@': False, '#': False, 'word': 'be', 'longword': False, 'title': False, 'charcount': 2, 'uppercase': False, 'stop': True, 'sscore': False, 'url': False, '!!!': False} }
{ 12: {'@': False, '#': False, 'word': 'going', 'longword': False, 'title': False, 'charcount': 5, 'uppercase': False, 'stop': False, 'sscore': False, 'url': False, '!!!': False} }
{ 13: {'@': False, '#': False, 'word': 'back#', 'longword': False, 'title': False, 'charcount': 5, 'uppercase': False, 'stop': False, 'sscore': False, 'url': False, '!!!': False} }
{ 13: {'@': False, '#': False, 'word': 'http://instagr.am/p/rx9939civ8/\xc2\xa0', 'longword': True, 'title': False, 'charcount': 33, 'uppercase': False, 'stop': False, 'sscore': False, 'url': True, '!!!': False} }
在另一个 python 脚本中,将上述内容作为输入。上面的所有代码都是不同的字典,是 1 个脚本的输出,但在另一个脚本中,我想做一个总和 'charcount' 或 longword=True 的计数,其中这些多字典具有相同的键,所以输出看起来像:
{ 12: {'longword': 1 ,'charcount': 25} }
{ 13: {'longword': 1 ,'charcount': 38} }
我的数据集没有对它们进行分组,而是输出单个字典,其中 12 作为键,13 作为键。我的代码应该能够找到所有相同的键,因为我有一个大数据集并进行上述聚合
这是我的代码,它将上述内容作为多字典,但我不明白我将如何进行聚合。
dicts = {}
for line in sys.stdin:
d = ast.literal_eval(line)
for k,v in d.items():
dicts.setdefault(k, []).append(v)
for key,val in v.items():
这是我到目前为止的代码。