我一直在研究网络上的不同来源并尝试了各种方法,但只能找到如何计算唯一单词而不是唯一短语的频率。我到目前为止的代码如下:
import collections
import re
wanted = set(['inflation', 'gold', 'bank'])
cnt = collections.Counter()
words = re.findall('\w+', open('02.2003.BenBernanke.txt').read().lower())
for word in words:
if word in wanted:
cnt [word] += 1
print (cnt)
如果可能的话,我还想统计一下本文中使用“中央银行”和“高通胀”这两个词的次数。感谢您提供的任何建议或指导。