我在某些句子中使用以下方法找到了二元组的频率:
import nltk
from nltk import ngrams
mydata = “xxxxx"
mylist = mydata.split()
mybigrams =list(ngrams(mylist, 2))
fd = nltk.FreqDist(mybigrams)
print(fd.most_common())
在打印出具有最常见频率的二元组时,一个出现了 7 次,而所有其他 95 个二元组只出现了 1 次。然而,当将二元组与我的句子进行比较时,我看不到所有频率为 1 的二元组被打印出来的逻辑顺序。有谁知道 .most_common() 打印二元组的方式是否有任何逻辑,或者它是随机生成的
提前致谢