1

如果出现相同的单词组合,我们基本上想比较两个列表。我们的 Trigram-Code 给我们带来了这样的东西:

例如(这些是“元组”类型)

List1 = 
(('I', 'want', 'this'),456)
(('What', 'is', 'this') , 25)


List2 = 
(('this', 'is', 'what'), 12)#this one should not count, because the order is different
(('I', 'want', 'this'), 9)

每个列表后面的数字显示了这些三元组合在我们的 DataFrame 中出现的频率,也许你必须先删除它们?

List3 = 出现在 List 1 AND List 2 中的 Trigram-Word-Combinations

    Result should be  "'I', 'want', 'this'"

先感谢您

4

2 回答 2

1

List3 = [ L1phrase[0] for L1phrase in List1 if L1phrase[0] in [L2phrase[0] for L2phrase in List2] ]

你可以做嵌套列表理解

于 2021-11-18T10:29:41.240 回答
1

您可以使用集合交集并且只使用单词的元组:

>>> {x[0] for x in List1} & {x[0] for x in List2}
{('I', 'want', 'this')}
于 2021-11-18T10:26:19.287 回答