我正在使用python 2.7。我想计算中文单词的频率。我如何使用我的标记化列表来做到这一点?我想在下一步中找到句子的位置。因此,希望我可以计算单词频率,并在同一时间给我每个单词的起点和终点。
我试图从输入文件中计算词频,这与我的标记化无关。但这也给了我错误的结果。对于计数器部分,它向我显示: Counter({u'\u7684': 1}) ,但我的预期结果是 Counter({'的': 27})
#coding=UTF-8
userinput = raw_input('Enter the name of a file')
import codecs
f= codecs.open(userinput,"r","UTF-8")
str=f.read()
f.close()
import jieba
result=jieba.tokenize(str)
for tk in result:
print "word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2])
from collections import Counter
with open(userinput) as inf:
cnt = Counter()
for word in [u'的']:
cnt[word] += 1
print (cnt)