0

我正在尝试指定一种可以排除某些结果的模式。鉴于此文本:The Territory for the Titles shall be the United States, its territories and possessions, excluding Puerto Rico 我正在寻找一种仅提取 的方法the United States,就像 a 一样GPE,并且不被排除在外。

我试着写一个这样的模式,在我看来,应该意味着“只有当除了引理后面跟着一个或多个s[{'LEMMA': 'exclude', 'OP': '!'}, {'ENT_TYPE': 'GPE', 'OP': '+'}]之外还有其他东西时才匹配。excludeGPE

但是在我对 spacy 3 的测试中(以及基于规则的 Matcher Explorer),匹配器仍然匹配be the United Statesand Puerto Rico

有没有办法编写一个专门过滤掉excludedGPE的模式?

4

1 回答 1

0

Puerto Rico匹配,因为Puerto引理不是exclude(显然)。因此,过滤掉的一种方法Puerto是实际搜索不是eclude也不是GPE.

一个有效的模式是

[
    {'LEMMA': {'NOT_IN': ['exclude']},
     'ENT_TYPE': {'NOT_IN': ['GPE']}},
    {'ENT_TYPE': 'GPE', 'OP': '+'}
]
于 2021-07-01T15:01:40.633 回答