我正在使用 NLTK Collocations 来查找三元组,而“ training_set ”是一个包含多行文本的字符串。
finder = TrigramCollocationFinder.from_words(str(training_set))
print finder.nbest(trigram_measures.pmi, 5)
但我得到的输出为
[('\xe5', '\x8d', '\xb8'), ('\xe5', '\x85', '\x8d'), ('\xe2', '\x80', '\x9c'), ('\xe2', '\x80', '\x9d'), ('\xe2', '\x80', '\xa6')]
这是一些编码问题吗?我如何获得正常的英语单词?