确实是一个简单的问题,但我似乎无法破解它。我有一个按以下方式格式化的字符串:
["category1",("data","data","data")]
["category2", ("data","data","data")]
我将不同类别的帖子称为帖子,我想从数据部分中获取最常用的单词。所以我尝试了:
from nltk.tokenize import wordpunct_tokenize
from collections import defaultdict
freq_dict = defaultdict(int)
for cat, text2 in posts:
tokens = wordpunct_tokenize(text2)
for token in tokens:
if token in freq_dict:
freq_dict[token] += 1
else:
freq_dict[token] = 1
top = sorted(freq_dict, key=freq_dict.get, reverse=True)
top = top[:50]
print top
但是,这将为我提供字符串中每个帖子的最热门单词。
我需要一个通用的热门单词列表。
但是,如果我将 print top 从 for 循环中取出,它只会给我上一篇文章的结果。
有人有想法吗?