下面是我的输入数据框。
id description
1 **must watch avoid** **good acting**
2 average movie bad acting
3 good movie **acting good**
4 pathetic avoid
5 **avoid watch must**
我想从短语中的常用词中提取 ngram,即 bigram、trigram 和 4 wordgram。让我们将短语标记为单词,然后即使经常使用的单词的顺序不同,我们也能找到 ngrams (如果我们经常使用单词作为“好电影”并且在第二个短语我们经常使用的词是“电影好”,我们可以提取二元组作为“好电影”)。我期望的示例如下所示:
ngram frequency
must watch 2
acting good 2
must watch avoid 2
average 1
正如我们在第一句中看到的,经常使用的词是“必须观看”,而在最后一句中,我们有“观看必须”,即频繁词的顺序发生了变化。因此,它以 2 的频率提取必须观看的二元组。
我需要从短语中的常用词中提取 ngrams/bigrams。
如何使用 Python 数据框实现这一点?任何帮助是极大的赞赏。
谢谢!