如果出现相同的单词组合,我们基本上想比较两个列表。我们的 Trigram-Code 给我们带来了这样的东西:
例如(这些是“元组”类型)
List1 =
(('I', 'want', 'this'),456)
(('What', 'is', 'this') , 25)
List2 =
(('this', 'is', 'what'), 12)#this one should not count, because the order is different
(('I', 'want', 'this'), 9)
每个列表后面的数字显示了这些三元组合在我们的 DataFrame 中出现的频率,也许你必须先删除它们?
List3 = 出现在 List 1 AND List 2 中的 Trigram-Word-Combinations
Result should be "'I', 'want', 'this'"
先感谢您