我有一个句子列表:
text = ['cant railway station','citadel hotel',' police stn'].
我需要形成二元对并将它们存储在一个变量中。问题是当我这样做时,我得到的是一对句子而不是单词。这是我所做的:
text2 = [[word for word in line.split()] for line in text]
bigrams = nltk.bigrams(text2)
print(bigrams)
产生
[(['cant', 'railway', 'station'], ['citadel', 'hotel']), (['citadel', 'hotel'], ['police', 'stn'])
火车站和城堡酒店不能合二为一。我想要的是
[([cant],[railway]),([railway],[station]),([citadel,hotel]), and so on...
第一句的最后一个词不能和第二句的第一个词合并。我应该怎么做才能让它工作?